From Information to Divergence

Information theory 에서 information은 특정한 관찰에 의해 얼마만큼의 정보를 획득했는지 수치로 정량화한 값이다.
모델 학습에 있어서 얼마나 영향력 있는지, 정보의 파급력 또는 놀람의 정도로 해석할 수 있다.
- 즉, 큰 정보량은 자주 발생하는 관찰이나 사건에 대해서는 작은 값을 갖고 자주 발생하지 않는 사건에 대해서는 큰 값을 갖는다.
정보이론에서는 자주 일어나지 않는 사건의 정보량은 자주 발생하는 사건보다 정보량이 많다고 간주한다.
관찰이나 사건 \(A\)의 정보량 \(h(A)\) 를 다음과 같이 정의한다.

\[h(A):=-\log P(A)\]

\[H[X]:=-\sum_{i=1}^N p_i \log p_i\]

\[H[X]:=-\int p(x)\log (p(x))dx\]

두 확률 분포 \(p\) 와 \(q\) 에 대해서 분포 \(p\) 대신에 \(q\)를 사용해 분포 \(p\)를 설명할 때 필요한 정보량을 Cross Entropy라고 한다.
주어진 확률변수 \(X\)에 대해서 확률분포 \(p\)를 찾는 문제를 생각해보자.
- 확률분포 \(p\)의 정확한 형태를 모르기 때문에 \(p\)를 예측한 근사 분포 \(q\)를 이용해야 한다.
Cross-entropy는 다음과 같다.

\[\text{Cross-entropy}=-\sum_{i=1}^N p_i \log q_i\]

\[KL(p|q):=-\sum_{i=1}^N p_i \log q_i - \left( -\sum_{i=1}^N p_i \log p_q \right)=-\sum_{i=1}^N p_i \log \left(q_i \over p_i\right)\]

Cross Entropy에 Entropy를 뺀 값이라고 생각하면 된다.
KL Divergence의 성질은 다음과 같다.
- \(KL(p\vert q)≠KL(q\vert p)\) (non-symmetric).
- \(KL(p\vert q)=0\) if and only if \(p=q\).
- \(KL(p\vert q)≥0\).
KL Divergence를 최소화하는 것은 결국 Cross Entropy를 최소화하는 것과 같으므로 CE를 loss로 사용한다.

\[D_f(P||Q)=\int q(x)f\left({p(x) \over q(x)}\right)dx\]

Divergence	Corresponding f(t)
KL-divergence	\(t\log t\)
reverse KL-divergence	\(-\log t\)
squared Hellinger distance	\(({\sqrt {t}}-1)^{2},\,2(1-{\sqrt {t}})\)
Total variation distance	\({\frac {1}{2}}\vert t - 1\vert\)
Pearson \(\chi ^{2}\)-divergence	\((t-1)^{2},\,t^{2}-1,\,t^{2}-t\)
Neyman \(\chi ^{2}\)-divergence (reverse Pearson)	\({\frac {1}{t}}-1,\,{\frac {1}{t}}-t\)
α-divergence	\({\begin{cases}{\frac {4}{1-\alpha ^{2}}}{\big (}1-t^{(1+\alpha )/2}{\big )},&{\text{if}}\ \alpha \neq \pm 1,\\t\ln t,&{\text{if}}\ \alpha =1,\\-\ln t,&{\text{if}}\ \alpha =-1\end{cases}}\)
α-divergence (other designation)	\(\begin{cases}{\frac {t^{\alpha }-t}{\alpha (\alpha -1)}},&{\text{if}}\ \alpha \neq 0,\,\alpha \neq 1,\\t\ln t,&{\text{if}}\ \alpha =1,\\-\ln t,&{\text{if}}\ \alpha =0\end{cases}\)

Reference:

알기 쉬운 산업 수학 - Entropy, Cross-entropy, KL Divergence

reniew’s blog - 정보이론 : 엔트로피, KL-Divergence

Wikipedia - f divergence