정보량
- 정보량 = 놀람의 정도 = 불확실성의 정도
- 즉, 정보량이 많을수록 불확실성이 높고, 불확실성이 높을수록 정보량이 많다.
- 발생 확률이 높을수록 짧은 길이(정보량)를 가지도록, 발생 확률이 낮을수록 긴 길이를 가져도 몇 번 등장하지 않기 때문에, 이렇게 정보를 표현하면 효율적으로 표현할 수 있다.
- 정보를 효율적으로 어떻게 표현하는가? → Bit를 사용. 0 or 1로 표현
Entropy 엔트로피
- entropy: 정보를 표현하는데 필요한 최소 평균 자원량 = 표현하기 위해 사용되는 0 or 1의 평균 길이 = 평균 정보량
- (모든) 발생 확률에 따른 최소 평균 자원량, 엔트로피를 나타내기 위해 기댓값
$$ entropy = \sum(사건\ 발생\ 확률)·log_2(1/사건\ 발생\ 확률) \\ = \sum_ip_i·log_2(1/p_i)\\ = -\sum_ip_i·log_2(p_i) $$
- 엔트로피는 확률에 따른 최소 평균 자원량으로, 최적의 상태라고 할 수 있다. 즉, 딥러닝에서 엔트로피는 모델이 학습을 통해 표현하고 싶은, 실제 분포에 따른 최적의 상태 = 하한선이다.
Cross Entropy 크로스 엔트로피
$$ cross\ entropy = -\sum_i실제\ 확률·log_2(모델이\ 예측한\ 확률) = -\sum_ip_ilog_2(q_i) $$
- 모델이 예측한 정보량 ($log_2(모델이\ 예측한\ 확률)$) 을 실제 확률에 따른 기댓값을 계산 (기댓값이라는 표현이 틀릴 수 있음)
- cross entropy가 entropy에 가까워질수록 모델이 학습을 잘해서 최적의 상태에 다가간다고 할 수 있음 → cross entropy를 손실 함수로 사용하는 이유
⇒ $cross\ entropy ≥ entropy$
Cross Entropy Loss
$$ cross\ entropy\ loss= -\sum_ip_ilog(q_i) $$
- 분류 문제를 풀 때 크로스 엔트로피 손실 함수를 자주 사용하게 된다.
- 정답 클래스는 1, 정답이 아닌 클래스는 0의 확률을 가지기 때문에, cross entropy loss는 결국 정답 레이블 k에 대한 $-p_klog(q_k) = -log(q_k)$가 된다.
- $q_k$가 1에 가깝다면 loss가 0에 가까울 것이고, $q_k$가 0에 가깝다면 loss가 엄청 커질 것이다.
- cross entropy를 최소화하는 것이 q가 p에 가까워질 것이라는 가정 하에 사용 → 실제 p를 모르기 때문에 (정답은 1, 아니면 0은 학습을 위한 인간의 설정값임)
KL-divergence (Kullback–Leibler divergence, KLD)
$$ D_{KL}(p|q) = KL(p|q) = cross\ entropy - entropy\\ = -\sum_ip_ilog_2(q_i) - (-\sum_ip_i·log_2(p_i)) = -\sum_ip_ilog_2(q_i) + \sum_ip_i·log_2(p_i))\\ = \sum_ip_i·log_2(p_i)) + \sum_ip_ilog_2(1/q_i) = \sum_ip_i·log_2(p_i/q_i)) $$
- KL-divergence는 Cross entropy - entropy로, $p_i$와 $q_i$ 분포의 차이 = 비효율적인 정도를 나타낸다. 이때 분포의 차이와 거리는 다른 개념이다. 차이 ≠ 거리 !!! KL divergence는 두 분포의 거리가 아니다!
- KL-divergence는 q를 p에 가깝게 하기 위해 사용! → 일반적으로 p를 알 때 사용하게 됨
Cross Entropy vs KL-divergence
왜 어떤 문제는 cross entropy, 어떤 문제는 KL-divergence를 사용?! 둘이 비슷해보이는데...
KL divergence는 해당 분포를 알 때 그 분포에 가깝게 하기 위해, Cross entropy는 정답을 모를 때 정답에 가깝게 하기 위해 사용한다!
이 부분은 말로 어떻게 정리해서 설명해야 할지 모르겠다. 스스로 공부를 하다 보면 느낌적으로 터득하게 된다. 난…아직 터득 못했을지도…
본 포스팅은 아래를 참고하여 작성되었습니다.
'A.I.' 카테고리의 다른 글
Decoding Strategies | greedy approach, beam search, random sampling (0) | 2023.04.22 |
---|