[04] AEP, Asymptotic Equipartition Property

Study/Coding and Information Theory

[04] AEP, Asymptotic Equipartition Property

ushin20

|2024. 4. 10. 14:06

대수적 균등 분할 원리라 하며, 큰 수의 법칙과 밀접한 관련이 있다. 장기간에 걸쳐 확률적 과정의 결과가 어떻게 나타나는지 다룬다.

Convergence of Random Variable

$X_i$ 가 iid이며 $E(X_1)=E(X_2)=...=E(X_n)$ 을 만족한다고 가정하자. 이때 $\overline{X_n}=\frac{1}{n}(X_1+...+X_n)$ 이라고 하자.

그러면 대수의 법칙에 의해서 $n→\infty$ , $\overline{X_n}→\mu$ 가 된다.

우리는 그러면 $\overline{X_n}$ 을 다음을 만족하는 RV라고 생각해볼 수 있다.

두가지 type(strong, weak)으로 수렴이 인식된다.

Types of Convergence

수렴의 종류는 구체적으로 4가지로 구분된다.

Almost sure convergence : $Y_n \xrightarrow[]{a.s.} Y$

Mean-square convergence : $Y_n \xrightarrow[]{L^2} Y$

Convergence in Probability : $Y_n \xrightarrow[]{P} Y$

Convergence in Distribution : $Y_n \xrightarrow[]{d} Y$

위의 관계는 다음과 같은 관계를 가지는 것을 의미하기도 한다.

Asymptotic Equipartition Property, AEP

대수의 법칙 analog 버전이다. ~~긴 시퀀스 중 매우 작은 부분집합인 'Typical set'의 시퀀스가 주로 나타나는 것을 의미한다.~~

$X_1, ..., X_n ~ P(X_1, ..., X_n)$ 인 RV가 iid일 때, $n$ 이 충분히 클 경우, 모든 event가 equally surprising함을 의미한다.

수학적으로 $n$ 이 크면, $-\frac {1}{n} log P(X_1,...,X_n) \rightarrow H(X)$ 이기 때문에 성립한다.

Typical Set

$p(x)$ 를 따르는 $A^{(n)}_\epsilon$ 에 대히여 다음의 성질을 만족하는 시퀀스의 집합을 의미한다.

$2^{-n(H(X)+\epsilon)} \leq p(x_1,x_2,...,x_n) \leq 2^{-n(H(X)-\epsilon)}$

다음의 Theorem을 만족한다.

Size of Typical Set

$X_i$ 가 iid고 $p(0)=p$ , $p(1)=1-p$ 이다. 이 때, typical sequence(length n)은 대충 0이 np번 1이 n(1-p)번 발생한다고 생각할 수 있다.

따라서 typical sequence의 수는 ${n \choose np}$ 로 구해보면,

일반적으로 typical set의 크기는 $2^{nH(X)}$ 임을 알 수 있다.

Data Compression by AEP

AEP를 사용하면, data를 typical set으로 압축시키는 방법에 대한 경우의 수가 어떻게 될지 알아볼 수 있다.

위와 같은 데이터를 저장한다고 생각했을 때, typical set과 non-typical set에 각각 필요한 비트수는 다음처럼 계산할 수 있다.

여기에 데이터가 typical인지 아닌지 나타내는 prefix용 1 bit가 추가된 bit수가 필요하다고 생각해보자.

그럼 source code를 압축한다고 생각했을 때,

Brute force로 non-typical set $A^{(n)^c}_\epsilon$ 을 찾는다. (크기 $\leq |X^n|$
Expected length of codeword(부호어): $l(x^n)$

이렇게 해서 최종적으로 데이터를 AEP에 의해 압축시켰을 경우, 다음을 만족하는 one-to-one source code가 있음을 알 수 있다.

( $X^n$ iid이며 $p(x)$ 를 따르고 $\epsilon > 0$ 인 경우)

교과서 내용이 잘 이해가 안가서, 유튜브로 공부한 내용

AEP

Biased coin을 toss한다고 가정해보자. 확률은 다음과 같다. $P(H) = \frac {1}{5}, P(T) = \frac{4}{5}$

그러면 이제 Toss를 L=5번한다고 생각해보면 확률은 다음과 같다.

잘 보면,

$P(T=5,H=1) = \frac{4}{5}^5 = 0.327$

$P(T=4,H=2) = \frac{1}{5} \frac{4}{5}^4 × 5 = 0.409$

Tail이 4번 나올 확률이, 5번 나올 확률이 높은 걸 확인할 수 있다. 그래서 모두 계산해보면,

L=100일 때로 높여보면,

즉 sequence가 길어질수록 확률적으로 주로 발생하는 친구들이 정해진다는 것을 알 수 있다. 그리고 이런 친구들을 Typical set이라고 부르는 것이다.

그럼 L=5일 때, typical set 중 하나인 $P(TTTTH)$ 를 다시 계산해보면,

뭔가 의심스러우니 여러 상황에 대해서 계산해보자.

$L$ = 100
$T$ = 80 and 79
$H$ = 20 and 21

따라서,

$P(80T, 20H) = 2^{-100×0.72193}$

$P(79T, 21H) = 2^{-100×0.74193}$

서로 다르지만, 거의 비슷하며 $L \rightarrow \infty$ 인 경우 두 Prob.은 유사해짐을 알 수 있다. 이렇게 대수의 법칙에 근거하여 typical set을 다루는 것을 AEP라고 한다.

Typical set의 size

Typical set에 속하는 seq.들의 확률의 합은 거의 1에 근접할 것이다.

$P(seq_1) + P(seq_2) + ... + P(seq_n) \leq 1$

$P(seq_i) = 2^{LH(X)}$ 이므로 위의 식을 잘 정리해보면,

$N_{typical} × 2^{-LH(X)} \leq 1$

따라서 # of typical set은 $2^{LH(X)}$ 보다 작거나 같음을 알 수 있다.

그래서 $L$ =100일 때, 아까의 상황을 가정하면,

$N_T \leq 2^{100×0.72..} \leq 2^{73}$

전체 sequence의 수는 $2^{100}$ 이다.

Data compression

위의 성질을 생각해보면, 데이터를 압축하는 데에 AEP를 사용할 수 있다.

A가 B에게 100번의 Toss 결과를 data로 제공하는 경우를 생각해 봤을 때, 얼마나 많은 bit가 필요한지 생각해보자.

전송하는 대부분의 toss sequence는 확률상 typical set에 포함된다. 그리고 4개의 알파벳을 전송하는 데 필요한 bit 수는 $log4=2$ 로 2bits임을 알 수 있다.

따라서 typical set에 대해서는

$log 2^{LH(X)} = LH(X) = 100*0.72.. = 73$ 으로 73bits가 필요하다.

Typical set이 아닌 경우에 대해서는

$log |X| = log 2^L = L = 100$ 으로 100bits가 필요하다.

A에서 B로 데이터를 전송할 때, typical set인지 아닌지 표현하는 prefix bit까지 포함하면 다음의 bit가 필요하게 된다.

Typical set: 73+1
Non typical set: 100+1

대부분의 경우 typical set이기 때문에, 100bits짜리 데이터를 73bits로 주로 보낼 수 있다는 장점이 있다. 기댓값은 다음처럼 구할 수 있다.

저작자표시

'Study > Coding and Information Theory' 카테고리의 다른 글

SUMMARY (1)	2024.04.10
[05] Entropy Rates (1)	2024.04.10
[03-2] Jensen's Inequality (0)	2024.04.09
[03-1] Entropy, Relative Entropy & Mutual Information (0)	2024.04.09
[02] Brief review of Probability (1)	2024.04.09

Convergence of Random Variable
1. Types of Convergence
Asymptotic Equipartition Property, AEP

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`