From Information to Divergence

Self-information, Entropy, Cross Entropy, KL-divergence, F-divergence

Posted by cyc1am3n on March 01, 2020

Self-information(정보량)

  • Information theory 에서 information은 특정한 관찰에 의해 얼마만큼의 정보를 획득했는지 수치로 정량화한 값이다.
  • 모델 학습에 있어서 얼마나 영향력 있는지, 정보의 파급력 또는 놀람의 정도로 해석할 수 있다.
    • 즉, 큰 정보량은 자주 발생하는 관찰이나 사건에 대해서는 작은 값을 갖고 자주 발생하지 않는 사건에 대해서는 큰 값을 갖는다.
  • 정보이론에서는 자주 일어나지 않는 사건의 정보량은 자주 발생하는 사건보다 정보량이 많다고 간주한다.
  • 관찰이나 사건 의 정보량 를 다음과 같이 정의한다.
  • 여기에서 는 사건 의 확률을 의미한다.


Entropy

  • Entropy는 확률변수의 평균 정보량, 즉 평균적인 놀람(불확실성)의 정도를 나타낸다.
  • 이산확률 변수 의 평균 정보량 는 다음과 같이 정의한다.
  • 연속확률 변수 의 평균 정보량 는 다음과 같이 정의한다.


Cross Entropy

  • 두 확률 분포 에 대해서 분포 대신에 를 사용해 분포 를 설명할 때 필요한 정보량을 Cross Entropy라고 한다.
  • 주어진 확률변수 에 대해서 확률분포 를 찾는 문제를 생각해보자.
    • 확률분포 의 정확한 형태를 모르기 때문에 를 예측한 근사 분포 를 이용해야 한다.
  • Cross-entropy는 다음과 같다.
  • 정보를 나타내는 값에 대신 를 사용한 것을 볼 수 있다.


Kullback-Leibler divergence(KL-divergence)

  • 두 확률분포의 유사한 정도를 계산하는 방법 중의 하나이다.
  • KL Divergence의 정의는 다음과 같다.
  • Cross Entropy에 Entropy를 뺀 값이라고 생각하면 된다.
  • KL Divergence의 성질은 다음과 같다.
    • (non-symmetric).
    • if and only if .
    • .
  • KL Divergence를 최소화하는 것은 결국 Cross Entropy를 최소화하는 것과 같으므로 CE를 loss로 사용한다.


F-divergence

  • 두 확률분포의 유사도를 일반화한 형태의 함수이다.
  • 정의는 다음과 같다.
  • 여기에서 는 convex function이며 을 만족해야한다.
  • 에 따라서 다양한 divergence를 만들 수 있다.
Divergence Corresponding f(t)
KL-divergence
reverse KL-divergence
squared Hellinger distance
Total variation distance
Pearson -divergence
Neyman -divergence (reverse Pearson)
α-divergence
α-divergence (other designation)

Reference: