广义线性模型

线性模型(Linear Model)是机器学习中应用最广泛的模型, 指通过样本特征的线性组合来进行预测的模型(即回归). 其中目标值是输入变量 x 的线性组合. 在数学概念中:

f(x,w)=w0+w1x1+...+wpxp=wTx+b

其中 x=[x1,x2,...,xp], w=[w1,w2,...,wp], b 为常数.

注: 在其他地方你可能会见到 f(x,w)=wTx 的表示, 此时 x=[1,x1,x2,...,xp], w=[w0,w1,w2,...,wp], 分别为 p+1 维的增广特征向量增广权重向量.

在线性回归问题中, 可以直接用 f(x,w) 来预测输出目标. 但在分类问题中, 由于输出目标是一些离散的标签或者是这些标签的后验概率而 f(x,w) 的值域为实数, 因此无法直接用来进行预测, 需要引入一个非线性的激活函数(Activation Function) g 来预测输出目标.

对于简单的两分类模型, 激活函数 g 可以为阶跃函数:

g(x,w)={+1wTx+b>0-1wTx+b<0

上述公式定义了一个典型的两类分类问题的线性决策函数, 在高维的特征空间中, 所有满足 wTx+b=0 的点组成一个分割超平面(Hyperplane). 这个超平面将特征空间一分为二, 划分成两个区域, 每个区域对应一个类别. 因此, 这个分割超平面也称为决策边界决策平面. 在二维空间中, 决策边界为一个直线. 在三维空间中, 分类界面为一个平面. 在高维空间中, 分类界面为一个超平面. 对于线性分类器而言, 其权重向量与决策平面正交.

对于线性分类模型来说, 一个关键的问题是如何学习参数 wb, 也就是如何定义损失函数以及优化方法.