再探交叉熵

交叉熵是个筐,什么都能往里装。

交叉熵损失函数,又称LogLoss,是工程上非常常用的损失函数,尤其是在神经网络中。二次损失函数在反向传播过程中会存在梯度消失问题,但是交叉熵损失函数由于其偏导式不存在梯度消失情形,因此在神经网络中广泛使用。

【1】交叉熵损失函数的一般形式推导

定义模型:

使用sigmoid函数映射到${[0,1]}$空间:

则交叉熵损失函数为:

对参数$\theta$求偏导:

可得交叉熵损失函数的更新式为

交叉熵损失函数更新式简洁优美,且扩展性强,只要能求出模型对参数$\theta$的偏导数,就能直接得到交叉熵损失函数下参数的更新式。

【2】逻辑回归

LR模型:

模型函数对参数$\theta_{i}$求偏导:

带入1.5式交叉熵损失函数更新式,参数$\theta$的梯度为:

参数$\theta$更新式为: