估计器(estimators)从何而来?相较于猜测某个函数可能产生一个好的估计器,然后再分析其偏差和方差,我们更愿意拥有一些原则,可以用来推导针对不同模型的好的估计器的特定函数。
最常用的这种原则就是最大似然原则(maximum likelihood principle)。
这样我就得到了不管是最大化似然还是最小化KL散度都是在得到最优的
θ
\pmb{\theta}
θθθ。最大似然这样就变成了最小化负log似然(NLL),或者等价的,交叉熵的最小化。把最大似然看作是KL散度的最小化是非常有帮助的,因为KL散度有一个已知的最小值0,而负log似然实际上在
x
\pmb{x}
xxx是实数值时可以是负的。
最大似然的性质
最大似然主要的吸引力在于它可以被证明是最好的估计器逼近,当样本数量m趋近于无穷时,它收敛的比率随着m增大而增大。
在以下两个条件下,最大似然估计器具有一致性(consistency)的性质:
统计效率通常在在有参(parametric case)情况下被研究。
Cramér-Rao lower bound (Rao, 1945; Cramér, 1946)证明了没有其他的一致性估计器能比最大似然估计器取得更低的MSE。
因为一致性和高效性,最大似然通常是使用机器学习的首选估计器。当样本数量足够小以至于会产生过拟合时,可以采用诸如权重衰减等正则策略来得到一个具有更小方差的最大似然的有偏版本,尤其是在训练数据受限时。