再探交叉熵

交叉熵是个筐，什么都能往里装。

交叉熵损失函数，又称LogLoss，是工程上非常常用的损失函数，尤其是在神经网络中。二次损失函数在反向传播过程中会存在梯度消失问题，但是交叉熵损失函数由于其偏导式不存在梯度消失情形，因此在神经网络中广泛使用。

【1】交叉熵损失函数的一般形式推导

定义模型：

$f=f_{\theta}(x)$

使用sigmoid函数映射到${[0,1]}$空间：

$\hat{y}=\frac{1}{1+e^{-f}}$

则交叉熵损失函数为：

$\begin{eqnarray} J(\theta) &=&-L(\hat{y},y)\\ &=&-y\ln(\hat{y})-(1-y)\ln(1-\hat{y})\\ &=&-y\ln(\frac{1}{1+e^{-f}})-(1-y)\ln(1-\frac{1}{1+e^{-f}})\\ &=&-y\ln(\frac{e^{f}}{1+e^{f}})-(1-y)\ln(\frac{e^{-f}}{1+e^{-f}})\\ &=&-y\ln(\frac{e^{f}}{1+e^{f}})-(1-y)\ln(\frac{1}{1+e^{f}})\\ &=&-y(f-\ln(1+e^{f}))+(1-y)\ln(1+e^{f})\\ &=&-yf+y\ln(1+e^{f})+\ln(1+e^{f})-y\ln(1+e^{f})\\ &=&-yf+\ln(1+e^{f})\\ \end{eqnarray}$

对参数$\theta$求偏导：

$\begin{eqnarray} \frac{\partial{J(\theta)}}{\partial\theta} &=&-y\frac{\partial{f}}{\partial\theta}+\frac{1}{1+e^{f}}*e^{f}*\frac{\partial{f}}{\partial{\theta}}\\ &=&(\frac{e^{f}}{1+e^{f}}-y)\frac{\partial{f}}{\partial{\theta}}\\ &=&(\hat{y}-y)\frac{\partial{f}}{\partial{\theta}}\\ \end{eqnarray}$

可得交叉熵损失函数的更新式为

$\begin{eqnarray} \frac{\partial{J(\theta)}}{\partial\theta} &=&(\hat{y}-y)\frac{\partial{f}}{\partial{\theta}}\\ \end{eqnarray}$

交叉熵损失函数更新式简洁优美，且扩展性强，只要能求出模型对参数$\theta$的偏导数，就能直接得到交叉熵损失函数下参数的更新式。

【2】逻辑回归

LR模型：

$f=\theta{_0}+\sum_{i=1}^{n}\theta_{i}x_{i}$

模型函数对参数$\theta_{i}$求偏导:

$\frac{\partial{f}}{\partial{\theta_{i}}}=x_{i}$

带入1.5式交叉熵损失函数更新式，参数$\theta$的梯度为：

$g_{i}=(\hat{y}-y)x_{i}$

参数$\theta$更新式为：

$\begin{eqnarray} \theta_{i}^{t+1} &=&\theta_{i}^{t}-\mu{g_{i}}\\ &=&\theta_{i}^{t}-\mu(\hat{y}-y)x_{i} \end{eqnarray}$