본문 바로가기

수학

중심 극한 정리 (CLT : Central Limit Theorem) : 여러개를 뽑아서 평균을 내면 정규 분포와 유사해 진다

728x90

중심 극한 정리

동일한 확률 분포를 가진 독립 확률 변수의 n개의 평균의 분포는 n이 적당히 크다면 정규 분포에 가까워 진다.
평균이 μ, 분산이 σ2인 독립 동일 분포로 부터 얻은 n개의 표본 {X1,X2,...,Xn}의 평균 X¯=X1+X2+...Xnn의 분포는 n이 매우 커질 때, 평균이 μ, 분산이 σ2n인 정규 분포에 수렴한다. 달리 표현하면, Y=nX¯μσ 는 평균이 0이고 분산이 1인 (표준) 정규 분포에 수렴한다.

에 대해서 알아 보도록 하겠습니다. 우선, 수학적인 증명을 하기 앞서서, 실제 몇몇 구체적인 확률 변수(분포)를 이용하여 실제로 평균의 분포가 정규 분포에 수렴하는지를 확인해 보겠습니다. 

 

연속 균등 분포를 활용한 중심 극한 정리의 이해

 

연속 균등 분포를 생각해 보겠습니다. 연속 균등 분포의 확률 밀도 함수는 

p(x)={12,x[1,1]0,otherwise

로 주어집니다. 즉, 확률 변수 x는 -1보다 크거나 같고 1보다 작거나 같은 값을 갖는데, 확률을 균등합니다. 이 분포의 평균은 μ=0 이고 분산은 σ2=13, 표준 편차는 σ=13 입니다. 

파이썬 시뮬레이션을 통해서 [1,1] 사이의 실수를 무작위로 10,000개를 뽑고, 이를 이용하여 얻은 확률 밀도 함수 입니다. 다소 들쑥 날쑥 하긴 하지만, 확률 밀도 값은 대체로 12 값을 갖습니다. 샘플링의 갯수를 크게 한다면 12 값에 더 잘 수렴하게 될 것 입니다. x 축의 값의 범위를 (4,4)로 다소 넓게 그렸는데, 나중에 나올 그래프와의 사이즈를 맞추기 위함 입니다. 

 

이제, 동일한 분포에서 실수를 무작위로 20,000개를 뽑고, "2개씩 짝을 지어 평균(X¯=X1+X22)을 구한 뒤, 이 평균에서 X의 분포의 평균을 빼고, X의 분포의 표준 편차로 나눈 뒤 2를 곱한 수(Y2)"를 얻겠습니다. 앞 문장의 "설명" 부분을 수식으로 나타내면 간단하게

Y2=nX¯μσ=2X¯013

 

가 되고, 총 10,000개의 Y2값이 구해집니다. 여기서 Y의 아랫 첨자 2는 "2"개의 X를 이용하여 얻어진 값을 나타내기 위해 특별히 표시하였습니다. 이 Y2값들의 분포를 그래프로 나타내면

와 같습니다. Y1의 분포(Y1=X13=3X이기 때문에 Y1의 분포는 연속 균등 분포가 됩니다. Y1의 범위는 자연스럽게 [3,3]이 됩니다) 에서는 임의의 Y1에 대해서 확률 밀도 값이 모두 같았는데, Y2의 분포에서는 Y20에 가까울수록 확률 밀도의 값이 더 커졌습니다. 그리고 Y2의 값이 0에서 멀어질수록 그 값은 선형적으로 줄어들고 있습니다. Y2가 가질 수 있는 값의 범위는 [6,6]으로 Y1이 가질 수 있는 범위 [3,3]에 비해서 음수, 양수 모두 2 배 만큼 커졌지만, Y2값이 큰 범위에서 확률 밀도값 자체가 많이 작아졌기 때문에 Y2Y1이 가질 수 있는 값 이외의 값을 가질 확률은 그리 높지 않습니다.

 

Y2의 분포는 해석적으로도 구할 수 있는데, 

p(y2)=p(x1)p(x2)δ(y2x1+x2213)dx1dx2=11111212δ(y2x1+x2213)dx1dx2

로 부터, 

p(y2)={16y2+16,x[0,6]16y2+16,x[6,0]0,otherwise

입니다.

 

이번에는 [1,1]범위에서 30,000개의 실수를 무작위로 뽑아서 위 과정을 반복해 보겠습니다. 

Y3=nX¯μσ=3X¯013

을 10,000개 얻을 수 있고, 이 값들의 분포를 그래프로 그리면,

와 같습니다. Y2의 확률 밀도 함수에 비해서 Y=0 집중도가 더 커졌습니다. Y3가 가질 수 있는 값의 범위는 [3,3]으로 Y2의 그것에 비해서 69으로 커졌지만, Y1Y2의 경우와 마찬가지로, Y3값이 커지는 범위에서의 확률 밀도 값 자체가 매우 작아지기 때문에 Y3Y2가 가질 수 없는 범위의 값을 가질 확률은 그리 높지 않습니다. Y2의 확률 밀도 함수에서는 Y2값이 0에서 벗어날 수록 확률 밀도 함수는 선형적으로 감소하였는데, Y3의 확률 밀도 함수에서는 그 보다 빠르게 0으로 감소합니다. n=3의 경우도, n=2의 경우에서 처럼 Y3의 확률 밀도 함수를 해석적으로 구할 수 있습니다. 독자분께서 직접해 보시길 추천합니다. 

 

이번에는 Y10의 확률 밀도 함수를 (시뮬레이션을 통해) 구해 보도록 하겠습니다. Y2,Y3을 구했던 방식과 동일 합니다. 이번에는 [1,1]범위의 무작위 실수 10개를 뽑아서 평균을 구하고 이 값들의 분포를 그리는 것 입니다. 컴퓨터 시뮬레이션에서는 n의 값만 바꿔 주면 되는 것이니 쉽게 할 수 있습니다. 

Y10의 확률 밀도 함수는 위와 같습니다. 좀 더 부드럽게 변화하는(중간에 튀는 값을 없애기 위해서) 확률 밀도 함수를 얻기 위해서 10,000개가 아닌 100,000개의 Y10값을 구하고 이것의 분포를 구했습니다. Y1Y2Y3Y10으로 n의 값을 키워 오면서 Y=0의 집중화 및 Y=0으로 벗어날 수록 확률 밀도 함수 값이 빠르게 0으로 수렴하는 정도가 더 커지고 있습니다. 

 

중심 극한 정리가 말해주는 것은 Y10의 분포가 표준 정규 분포와 매우 닮아진다는 것 입니다. 그래서 시뮬레이션으로 얻은 위 Y10의 확률 밀도 함수에 표준 정규 분포 그래프를 함께 그리면,

로 두 확률 밀도 함수가 매우 일치합니다! 간단한 시뮬레이션을 통해서 실제로 중심 극한 정리가 성립한다는 것을 확인하였습니다. 엄밀한 수학적인 증명에서는 "n이 무한히 커지는 극한" Yn의 확률 밀도 함수가 표준 정규 분포에 수렴한다고 하지만, 실제 구체적인 시뮬레이션에서는 대략적으로 n=10 정도만 되어도 두 확률 밀도 함수가 매우 유사해진다는 것을 확인할 수 있습니다. 물론 얼마간의 차이가 생기긴 합니다. 

 

위 결과를 요약하여 하나의 그래프에 그리면 아래와 같습니다. n=1,2,3,5,10,30의 경우를 하나의 그래프로 표현하였습니다. n이 커짐에 따라서 Yn의 분포가 표준 정규 분포로 수렴해 가는 것을 볼 수 있습니다. Y1의 분포가 균등 분포 이기 때문에, n=5 정도만 돼도 충분하게 닮았습니다.

매우 특이하게 생긴 확률 밀도 함수에 중심 극한 정리 적용

 

연속 균등 분포는 매우 "평범한" 분포이기 때문에 n=5 정도만 돼도 표준 정규 분포와 유사한 분포가 얻어짐을 확인했습니다. 이번에는 조금 특이한 분포에 대해서 위 과정을 똑같이 적용해 보도록 하겠습니다. 

위 분포 (하늘색)은 파레토 분포 (Pareto distribution)으로 

p(x)={αxmαxα+1,x>xm0,otherwise

입니다. 위에서는 xm=1,α=6 을 사용하였습니다. Y1X를 평균 만큼 이동(shift)하고 표준 편차 만큼 크기를 조정(scaling)한 것이니 위와 같은 분포를 갖게 됩니다. 위 파레토 분포에 대해서 Yn을 구하고, Yn의 분포를 그리면 아래와 같습니다.

n의 값이 커질 수록 Yn의 분포는 표준 정규 분포 (붉은색 선)과 닮아 갑니다. n의 증가에 따라 파레토 분포로 부터 얻은 Yn이 표준 정규 분포로 닮아 가는 정도는 연속 균등 분포로 부터 얻은 Yn이 표준 정규 분포로 닮아 가는 정도에 비해서 매우 느린데, 연속 균등 분포의 경우 n=10 정도만 되도 표준 정규 분포랑 비슷했지만, 파레토 분포의 경우 n=10에서는 아직 정규 분포와 파레토 분포 그 차제의 중간 정도의 개형을 갖습니다. 파레토 분포는 평균을 중심으로 매우 비대칭적인 확률 분포 값을 갖기 때문에, n=10에서는 아직 비대칭성이 사라지지 않고 있습니다. 위 그래프의 오른쪽 아래 n=500정도 되면 표준 정규 분포와 유사해 지긴 하는데, 아직까지도 Y500=0을 기준으로의 비대칭성은 약간 남아 있습니다. 어쨌든, 파레토 분포와 같은 비대칭적이면서 이상한 분포에서도 중심 극한 정리가 잘 적용됨을 확인하였습니다. 

 

두 확률 변수의 합의 확률 변수의 분포의 확률 밀도 함수에 중심 극한 정리 적용

 

이번에는 두 확률 밀도 함수를 더해서 생긴 새로운 확률 밀도 함수에 대해서 같은 계산을 반복해 보겠습니다. 즉 서로 다른 확률 밀도 함수를 따르는 확률 변수 X1X2에 대해서, 

X=X1+X2

와 같이 새로운 확률 변수 X를 정의 하겠습니다. 이번 예시에서는 앞에서 살펴본 파레토 분포와 푸아송 분포를 각각 X1,X2로 사용하겠습니다. 푸아송 분포는 연속 확률 분포는 아니고 불연속적인 확률 분포 입니다. 푸아송 분포에서 X값은 정수 값을 가질 수 있는데, 이 값을 이동(shift)와 크기 변환(scaling)을 하여 연속 확률 변수인 것 처럼 만들었습니다. 이 확률 밀도 함수를 이용하여 Y1를 구하면 아래와 같습니다. 

Y1=0을 기준으로 왼쪽(음수)쪽에는 파레토 분포가 오른쪽(양수)쪽에는 푸아송 분포가 주로 분포합니다. 파레토 분포는 +값을 가질 수 있기에 양수 부분에도 파레토 분포의 "꼬리"가 있습니다. 이 분포에 대해서 Yn을 구하고 그의 분포를 구하면 아래와 같습니다. 

대략 n=50 정도에서 Y50과 표준 정규 분포가 거의 같아집니다. 

 

중심 극한 정리의 증명

 

중심 극한 정리의 증명에서는 확률 밀도 함수의 특성 함수가 이용됩니다. 확률 변수 X에 대해서 특성 함수는 

ϕX(t)=E[eitX]

로 정의 됩니다. 여기서 E[]는 기대값을 의미합니다. 만일 확률 변수 X에 대응되는 확률 밀도 함수 P(x)가 있다면, 특성 함수는 P(x)의 푸리에 변환이 됩니다. 즉,

ϕ(t)=eitxP(x)dx

입니다. 

 

앞에서 확률 변수 X에 대해서 새로운 확률 변수 Yn=nX¯νσ 를 정의 했는데, Yn에 대한 특성 함수를 구해 보도록 하겠습니다. 편의를 위해서, 새로운 확률 변수 Z를 다음과 같이 정의 하도록 하겠습니다. 

Z=Xμσ

확률 변수 Z는 원래 확률 변수 X에서 평균 만큼 뺀(이동)하고, 표준 편차로 나눈 것 입니다. 따라서 확률 변수 Z의 평균은 0, 표준 편차는 1이 됩니다. YnZ의 관계는,

Yn=i=1n1nZi

가 됩니다. 이제 Yn에 대한 특성 함수는 푸리에 변환과 Z의 정의에 따라서,

ϕYn(t)=ϕZ1(tn)ϕZ2(tn)ϕZn(tn)=[ϕZ1(tn)]n

와 같이 Z의 특성 함수 ϕZ(t)에 의해 결정 됩니다. 첫 번째 등호에서 서로 독립인 확률 변수 Z1,Z2에 대해서, E[eit(Z1+Z2)]=E[eitZ1]E[eitZ2]를 이용하였습니다. 두 번째 등호 에서는 Z1,Z2,...,Zn이 같은 분포라는 성질을 이용하였습니다. 

 

임의의 확률 변수 X에 대해서 특성 함수 ϕX(t)t에 대해 전개하면, eitX=1+itX12t2x2+로 부터,

ϕX(t)=(1+itx12t2x2+)P(x)dx=1+itμ12t2σ2+

를 얻습니다. 위 식에서 X 자리에 Z를 대입하면, phiZ(t)를 구할 수 있는데, Z는 앞에서 정의한 바에 따라 평균 0이고 분산이 1이었습니다. 따라서, ϕZ(t)=1t22n+가 됩니다. 따라서 우리가 얻으려고 한 Yn의 특성 함수는 

ϕYn(t)=[1t22n+]n

이고 n에서, 이 값은 e12t2 이 됩니다. 이 과정에서 자연 상수 e의 정의, e=limN(1+1N)N을 이용하였습니다. 

 

위 두 문단을 통해 Yn의 특성 함수는 e12t2이라는 것을 구했는데,  e12t2는 다름 아닌, 표준 정규 분포 N(0,1)의 특성 함수 입니다. 따라서

Yn=N(0,1), as n

이 됩니다. (증명 끝)

 

위 증명에서 Z의 평균이 0, 표준 편차가 1이라는 것과 n이 무한히 크다는 것을 이용하였습니다. ZY에서 평균 만큼 이동과 표준 편차 만큼 크기 변환을 통해 얻어진 것으로, 결국 Y의 평균과 표준 편차가 유한하면 Z의 정의에 따라서 Z의 평균은 0, 표준 편차는 1이 됩니다. 위 증명에서 YZ가 특정한 분포를 따라야 한다는 조건은 없었습니다. 따라서, 중심 극한 정리는 평균과 표준 편차가 유한한 임의의 확률 변수에 대해서 성립하게 됩니다. 

 

분산이 유한하다는 것이 중요합니다. 보통 우리가 다루는 확률 변수의 경우, 평균은 유한한 값인데, 표준 편차가 유한하지 않은 (즉, 무한대로 발산하는) 경우가 종종 있습니다. 예를들어, 확률 변수 X가 확률 밀도 함수

P(x)=cx3,x>1

를 따르는 경우를 생각해 보겠습니다. 여기서 c는 정규화 상수 입니다. 이 확률 변수의 평균 E[X]는 정의에 따라,

E[X]=1xcx3=1cx2<

로 잘 정의 되지만, 분산(표준 편차의 제곱)은

V[X]=1cxdx

로 발산하게 됩니다. 따라서, 이 확률 변수에 대해서는 중심 극한 정리가 성립 하지 않습니다. 상당히 높은 확률로 확률 변수의 값이 무한대가 되는 경우가 있으니, Yn의 값이 무한대가 될 수 있습니다. 그러나 표준 정규 분포는 대부분의 확률이 0 부근에 집중 돼 있습니다. 

 

표본 평균의 표준 편차는 n이 커질 수록 감소한다

 

위 유도, 혹은 지금까지 대부분의 전개에서는 편의상 Yn 이라는 확률 변수를 이용하였습니다. 이를 우리의 원래 관심이었던 확률 변수 X에 대해서 다시 환원하여 설명할 필요가 있습니다. Yn=nX¯μσ의 정의에 따라서, 우리의 원래 관심사였던 X¯는 평균이 μ이고 표준 편차가 σn인 정규 분포 N(μ,σ2n)을 따르게 됩니다. 즉, 확률 변수 n개를 뽑아서 평균을 내면(X¯), 그 평균은 확률 변수의 원래 평균과 일치하고, 표준 편차는 n에 반비례하여 작아지게 됩니다. X1,X2,...,Xn 개개이 값은 평균에서 대략적으로 σ만큼 떨어져 있지만, X¯n이 커질 수록 X의 평균 μ를 벗어날 가능성이 없어집니다. 즉, n이 크다면, 실현된 몇몇 소수의 Xi값이 평균에서 부터 표준 편차에 비해 많이 떨어진 값을 가질 수 있지만, 이것들을 모두 평균을 낸다면 원래 확률 변수의 평균값과 동일한 값을 가지게 될 뿐 아니라, 그렇지 않을 확률은 거의 없게 됩니다. 

 

매우 정성적인 증명

 

특성 함수를 이용한 중심 극한 정리의 증명은 간단하지만 단순 식의 전개라 뭔가 직관적이지 않고 마음에 와 닿지 않습니다. 머리로는 이해가 가능하지만, 마음으로는 이해가 되지 않는 증명입니다. 

 

표준 정규 분포는 지수 함수의 성질에 따라서, 대부분의 확률 밀도가 0 부근에 집중 돼 있습니다. 확률 변수의 값이 커질 수록 확률 밀도 함수 값이 지수적으로 감소하기 때문에, 0 보다 매우 큰 값이 될 가능성은 사실상 0입니다. 중심 극한 정리가 말해주는 것은 결국 "유한한 분산을 갖는 독립적이고 동등한 확률 변수(편의상 평균이 0이 되도록 이동했다고 하겠습니다) n개를 뽑고 이것들의 평균을 내면 0에 가까운 값을 갖고, 평균이 표준 편차 보다 큰 값을 가질 가능성은 없다" 입니다. 만일 n개를 뽑아서 평균을 구했는데, 이 평균이 표준 편차에 비해 매우 큰 값을 갖는다면, 뽑힌 n개의 값이 모두 평균 보다 표준 편차 만큼은 커야 할 것 입니다. 1개의 확률 변수가 평균 대비 표준 편차 만큼 클 확률을 p라고 한다면, n개의 확률 변수가 모두 평균 대비 표준 편차 만큼 클 확률은 pn이 됩니다. p<1이고, 만일 n이 무한히 커진다면, 이 확률은 0이 됩니다.

 

위 논의는 Yn의 확률 밀도 함수가 0 주변에 몰려 있음을 보여줄 뿐, Yn이 정규 분포를 따른다는 것을 보여주지는 않습니다. Yn이 정규 분포가 됨은 이항 분포를 이용하여 설명할 수 있습니다. 매우 근사적으로 볼 때, 확률 변수의 값이 평균 보다 큰 경우와 평균 보다 작은 경우의 확률을 동등하게 12로 생각할 수 있습니다. 평균 보다 큰 경우의 평균을 xlarger, 평균 보다 작은 경우의 평균을 xsmaller라고 한다면, 매우 매우 근사적으로 볼 때, 확률 변수의 확률 밀도 함수는 

p(x)={12,x=xlarger12,x=xsmaller0,otherwise

로 볼 수 있습니다. 다시 강조를 하지만 매우 매우 근사적으로 생각할 수 있는 등식입니다. 위 확률 밀도 함수는 이항 분포의 확률 밀도 함수로, 이항 분포를 갖는 확률 변수의 샘플링 시행을 많이 할 수록 샘플링 된 평균 값의 분포는 정규 분포에 가까워 진다는 것을 이미 알고 있습니다. 이와 같은 방식을 통해서 Yn의 확률 밀도 함수가 정규 분포를 따른다는 것을 추론 할 수 있습니다. 다시 한 번 강조하건데, 매우 정성적인 해석입니다. 

 

일반화된 중심 극한 정리

 

위에서 설명하고 증명한 중심 극한 정리는 소위 "고전적인 중심 극한 정리"로 불립니다. 이 고전적인 중심 극한 정리에서는 하나의 독립적이고 동등한 확률 변수에 대해서 다루고 있습니다. 일반적인 중심 극한 정리, 예를들면 Lyapunov의 중심 극한 정리에서는 확률 변수 Xi가 동등하지 않은 확률 변수인 경우에 대해서 다루고, 이 경우에도 고전적인 중심 극한 정리와 같이, X로 부터 (간단한 방식을 통해) 새롭게 잘 정의된 확률 변수가 표준 정규 분포를 따르게 됩니다. 이를 일상의 용어로 옮기면, 서로 다른 원인으로 부터 얻어지는 무자위 변수 여러 개를 더하게 되면 (물론 간단한 이동, 크기 조정의 과정이 필요합니다) 표준 정규 분포가 얻어진다는 것 입니다. 

 

자연계, 혹은 사회 현상에서 접하는 무작위 수의 분포가 정규 분포 혹은 정규 분포와 같이 종형 분포를 갖게 되는 수학적인 이유가 바로 이 일반화된 중심 극한 정리에 있습니다. 우리가 관찰하는 자연계 현상은 수 없이 많은 원인들에 의해서 발현되게 되는데, 현상이 발현되는 조건에 따라서 "원인의 값"은 무작위 값을 갖게 됩니다. 다양한 무작위가 잘 더해지고 나누어 지고...의 과정을 겪다 보면 최종적으로 발현되는 값은 정규 분포를 갖게 되는 것 입니다. 사람의 키이 분포는 정규 분포를 보이게 되는데, 각 사람 마다의 유전자의 차이, 생활 방식의 차이, 영양 상태의 차이 등 다양한 무작위적인 조건이 키의 원인이 되고, 이 다양한 무작위성으로 인해 키의 분포는 정규 분포를 따르게 됩니다.

 

개인적 의견

 

중심 극한 정리에 대해서 처음 접하고 나서 "이렇게 대단한 정리가 있나?" 라고 생각하였습니다. 이항 분포와 같은 매우 특별한 확률 분포를 따르는 경우에는 Yn의 분포가 표준 정규 분포를 따르게 된다는 것은 고등학교 때 이미 배워서 특별하진 않았지만, "유한한 표준 편차를 갖는 임의의 확률 밀도 함수"에 대해서 Yn의 분포가 표준 정규 분포를 따른다는 것은 매우 놀라웠습니다. 또한 중심 극한 정리의 증명이 위와 같이 대략 한 2문단으로 증명 될 수 있다는 것 역시 놀라웠습니다(물론 보다 일반적인 경우의 중심 극한 정리를 엄밀하게 증명하기 위해서는 매우 많은 수학적 지식이 필요합니다) n이 커질 때, Yn이 수렴하는 분포가 다른 분포가 아닌 정규 분포라는 점에서 또 한 번 정규 분포의 위대함을 느낄 수 있었습니다. 동시에, 정규 분포를 발견하고 이를 연구한 수학자 칼 프리드리히 가우스(와 다른 수학자들)의 위대함 역시 느낄 수 있었습니다. 

 

 

728x90