728x90
반응형
https://en.wikipedia.org/wiki/Information_content
https://gaussian37.github.io/ml-concept-basic_information_theory/
https://hyunw.kim/blog/2017/10/14/Entropy.html
정보량 (Information Content)
정보량: 불확실함을 해소하기 위해 필요한 질문(정보)의 수, 또는, 어떤 Event가 발생하기 까지 필요한 시행의 수
예를 들어, 0과 1만 구분하는 전기 신호로 알파벳을 표현해야 한다면 다음 전략 사용 가능
- 알파벳이 앞쪽 절만(A~M)에 속하는지, 뒷쪽 절반(N~Z)에 속하는지 구분
- 반복해서 절반씩 구분
즉, 바이너리 서치와 같으며, $log_2(26)\approx4.7$이므로 최대 5번의 질문으로 알파벳을 표현할 수 있고, 정보량은 4.7이다.
식으로 표현하면,
$ I(x) := log_2(\cfrac{1}{Pr(x)}) $
좀 더 일반적으로 정리하면,
$ I(x) := -log_b[Pr(x)] $, b는 정보량의 단위
$b=2$인 경우의 정보량 단위를 shannon(Sh), 또는, bit라고 부름
엔트로피 (Entropy)
정보학에서의 엔트로피는 정보량의 기댓값을 뜻하며, 확률변수 X에 대해 다음과 같이 정의할 수 있다.
$\begin{align}
H(X) &= \sum\limits_{x}-p_X(x)logp_X(x) \\
&= \sum\limits_{x}p_X(x)I_X(x)
\end{align}$
- 엔트로피는 0~1 사이의 값을 가짐
- 데이터셋이 모두 하나의 클래스이면 0, 정확히 반반씩 두 클래스로 이뤄졌으면 1
반응형
'AI,머신러닝 > 용어' 카테고리의 다른 글
Target Encoding - 범주형 변수의 수치형 변환 (0) | 2023.09.18 |
---|---|
L1, L2 정규화(Regularization) (0) | 2023.09.09 |
크로스 엔트로피 (Cross-Entropy) (0) | 2023.09.05 |
경사 하강법 (Gradient Descent) (0) | 2023.09.05 |
지니 불순도 (Gini Impurity) (0) | 2023.08.18 |