Priciple concepts of machine Learning
统计学习概述
- 分类
- 监督学习/非监督学习/半监督学习/强化学习
- 统计学习方法的三要素
- 模型:模型的假设空间
- 在监督学习中,就是所要学习的条件概率或决策函数
- 策略:模型选择的准则
- 对应风险函数(衡量平均预测的好坏)和损失函数(衡量一次预测的好坏)
- 经验风险最小化:极大似然估计(容易造成过拟合)
- 例如:极大似然估计
- 结构风险最小化(对应于正则化):加入正则化项,
- 例如:Bayes最大后验估计
- 算法:模型学习的算法
- 模型:模型的假设空间
- 问题分类
- 回归问题:输入变量与输出变量均为连续变量
- 分类问题:输出变量为有限个离散变量
- 标注问题:输入与输出变量都是变量序列
- 监督模型类型
- 生成模型
- GDA/Naive Bayes/HMM
- 可以快速还原出联合概率分布,学习收敛速度更快
- 判别模型
- Logistic/SVM/条件随机场
- 可以直接对数据进行各种程度的抽象,定义特征,简化学习问题
- 生成模型
- 模型选择
- 假设空间中有不同复杂度的模型,需要涉及到模型选择问题。模型选择主要考虑到过拟合问题。
- 主要的模型选择方法:
- 正则化
- 一般使用或者范数
- 交叉验证
- 分为训练集,验证集和测试集
- 验证集用于模型的选择,选择对于验证集有最小误差的模型
- 简单交叉验证(前70%为训练集),S折交叉验证(前S-1个子集的数据进行训练,重复S次 ),留一交叉验证
- 正则化
- 评价标准
- 准确率(accuracy):给定的测试数据集,分类正确的样本数与总样本数的比
- 精确率(precision):
- 所有预测正类中正确的
- 召回率(recall):
- 所有预测正确中是正类的
- F1值:
SVM
- 原始问题建模
- 当时是support vector
- 对偶问题
- 由KKT条件,,同时可求得对应的b
- 决策函数只依赖于输入样本的内积
- 求得了,当时对应的是support vector(真正对有用的)