线性回归(LinearRegreesion)

线性回归主要用来解决连续值预测的问题.

线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。中学就有接触线性回归,那么线性回归应用在什么地方呢?它适用于有监督学习的预测。

一元线性回归分析:y=ax+b,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示。

多元线性回归分析:包括两个或两个以上的自变量,并且因变量和自变量是线性关系。

损失函数

损失函数:是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数。更通俗地说,损失函数用来衡量参数选择的准确性。损失函数得到的值越小,损失也就越小。

梯度下降

怎样最小化损失函数?损失函数的定义是一个凸函数,就可以使用凸优化的一些方法:
1) 梯度下降:逐步最小化损失函数的过程。如同下山的过程,找准下山方向(梯度),每次迈进一步,直至山底。如果有多个特征,对应多个参数θ,需要对每一个参数做一次迭代,做完以后再求J函数。
  学习率:上段公式中的α就是学习率。它决定了下降的节奏快慢,就像一个人下山时候步伐的快慢。α过小会导致收敛很慢,α太大有可能会导致震荡。如何选择学习率呢,目前也有好多关于学习率自适应算法的研究。工程上,一般会调用一些开源包,包含有一些自适应方法。自己做的话会选择相对较小的α,比如0.01。下图展示了梯度下降的过程。
2)牛顿法:速度快适用于小数据,大数据比较耗内存。

过拟合与正则化

回归与欠/过拟合:
1) 欠拟合:函数假设太简单导致无法覆盖足够的原始数据,可能造成数据预测的不准确。

2) 拟合问题:比如我们有很多的特征,假设的函数曲线对原始数据拟合的非常好,从而丧失一般性,导致对新给的待预测样本,预测效果差。

过拟合解决方法:
1) 减少特征个数:手工选择保留特征、模型选择的算法选择特征。
2) 正则化:在原来的损失函数中加入θ的平方项,来防止波动太大。即L2正则化。留下所有的特征,但是减少参数的大小。