(23.01.27)
Murphy_Machine_Learning 교재 참고
KL divergence 설명 잘해놓은 블로그: https://brunch.co.kr/@chris-song/69#comment
Inforamtion theory
information theory의 핵심 아이디어: 자주 일어나지 않는 사건이 자주 발생하는 사건보다 정보량이 많다.
여기서 말하는 정보량을 식으로 나타낸 것이 바로 아래의 식이다.
발생활 확률 p(x)이 큰 사건은 정보량 I(x)가 적고, 발생할 확률 p(x)이 작은 사건은 정보량 I(x)가 크다.
위 정보량 식에서 log의 밑이 2일 때, 정보량의 단위는 bit이고, log의 밑이 e일 때, 정보량의 단위는 natural unit (nat)이다.
Entropy
entropy는 정보량의 기댓값을 의미한다. 식은 아래와 같다.
위의 식을 바탕으로 생각해보면, 발생할 수 있는 사건의 확률이 모두 비슷한 경우에 entropy가 가장 클 것이다.
binary random variables에서 아래와 같을 때, entropy 식은 binary entropy function이라고 부른다.
uniform distribution을 따를 때, theta가 0.5이면, 최대값은 1이 된다.
KL divergence
KL divergence는 두 확률분포의 다름의 정도를 나타낸다. 이는 relative entropy (상대 엔트로피)라고도 부른다.
machine learning에서는 아직 확인되지 않은 모델을 특정한 확률분포로 근사시킬 때, KL divergence를 사용한다.
KL divergence를 가장 작게 만들도록 하는 것이 목표일 것이다.
KL divergence를 전개해보면, entropy와 corss entropy로 나눌 수 있음을 확인할 수 있다.
Mutual information
mutal information은 p(X,Y)와 p(X)p(Y)가 서로 얼마나 비슷하느냐를 나타낸다고 볼 수 있다.
X와 Y가 independent하면 위의 값은 0이 되므로, X와 Y가 dependent 할수록 값이 커진다고 할 수 있다.
conditional entropy로 풀어쓰면 아래와 같은 식이 나온다.
'Computer Vision > Mathematics' 카테고리의 다른 글
[Linear Algebra] trace, least squares, projection matrix (0) | 2023.02.28 |
---|---|
[Linear Algebra] 가우스-조던 소거법, 역행렬 증명, determinant (0) | 2023.02.28 |
[Linear Algebra] identity, inverse, diagonal matrix & rank & null space (0) | 2023.01.27 |
[Linear Algebra] norm, linear combination, span, basis, linearly independent (0) | 2023.01.27 |
[Linear Algebra] 행렬, transpose, dot product, projection (0) | 2023.01.27 |