其中:
對于連續概率分布,交叉熵的定義可以擴展為積分形式:
## 2. 交叉熵的直觀理解
交叉熵的核心思想是衡量用分布Q 來表示分布 P 所需的平均編碼長度。當 Q 與 P 完全一致時,交叉熵達到最小值,此時的值等于 P 的熵 H(P) 。
– 交叉熵與熵的關系:交叉熵可以分解為熵和KL散度(Kullback-Leibler Divergence)之和:
– 其中,DKL?(P ||Q) 是KL散度,用于衡量 P 和 Q 之間的差異。由于KL散度非負,交叉熵總是大于或等于熵。
KL散度(Kullback-Leibler Divergence)是衡量兩個概率分布差異的指標,定義為:
從交叉熵的定義可以看出:
這意味著: