线性回归

机器学习笔记4 正则化

Andrew Ng cs229 Machine Learning 笔记

正则化 Regularization

为了和正规方程(normal equation)里”正规”区分开来,这里Regularization都译作“正则化”,有些地方也用的是“正规化”。以下内容来自wikipedia):

正则化是指通过引入额外新信息来解决机器学习中过拟合问题的一种方法。这种额外信息通常的形式是模型复杂性带来的惩罚度。正则化的一种理论解释是它试图引入奥卡姆剃刀原则。而从贝叶斯的观点来看,正则化则是在模型参数上引入了某种先验的分布。

机器学习笔记3 有监督学习 分类 logistic回归

Andrew Ng cs229 Machine Learning 笔记

分类问题

分类问题和回归问题不同的是,分类问题的预测值$y$只能取离散值,而非连续值。首先来看一个二类分类问题,预测值$y$只能取0或1。0又被称作负例(negative class),1被称作正例(positive class)。通常也用”-“,”+“符号来表示。对于一个样本集输入$x^{(i)}$,对应的目标值$y^{(i)}$也被为标注(lable)。

logistic回归

也可以用线性回归的方法运用到分类问题上,但是这样做很容易得到不好的结果。稍微改变一下我们的假设函数$h_\theta(x)$,使其的取值在{0,1}范围内:

机器学习笔记2 有监督学习 线性回归 局部加权回归 概率解释

Andrew Ng cs229 Machine Learning 笔记

有监督学习

局部加权线性回归(Locally weighted linear regression)

参数学习算法(parametric learning algorithm):参数个数固定

非参数学习算法(non-parametric learning algorithm):参数个数随样本增加

特征选择对参数学习算法非常重要,否则会出现下面的问题:

  • 欠拟合(underfitting):特征过少,模型过于简单,高偏差(high bias),不能很好拟合训练集
  • 过拟合(overfitting):特征过多,模型过于复杂,高方差(high variance),过于拟合训练集,不能很好预测新样本

对于非参数学习算法来说,并不需要进行精心的特征选择,局部加权线性回归就是这样。

局部加权回归又叫做Loess,其成本函数为:

机器学习笔记1 有监督学习 线性回归 LMS算法 正规方程

Andrew Ng cs229 Machine Learning 笔记

有监督学习

先理清几个概念:

  • $x^{(i)}$表示”输入”变量(“input” variables),也称为特征值(features)。
  • $y^{(i)}$表示”输出”变量(“output” variables),也称为目标值(target)。
  • 一对$(x^{(i)},y^{(i)})$称为一个训练样本(training example),用作训练的数据集就是就是一组$m$个训练样本${(x^{(i)},y^{(i)});i=1,…,m}$,被称为训练集(training set)。
  • $X$表示输入变量的取值空间,$Y$表示输出变量的取值空间。那么$h:X \rightarrow Y$是训练得到的映射函数,对于每个取值空间X的取值,都能给出取值空间Y上的一个预测值。函数$h$的含义为假设(hypothesis)。
  • 图形化表示整个过程: