중심 극한 정리
동일한 확률 분포를 가진 독립 확률 변수의 n개의 평균의 분포는 n이 적당히 크다면 정규 분포에 가까워 진다.
$\rightarrow$ 평균이 $\mu$, 분산이 $\sigma^2$인 독립 동일 분포로 부터 얻은 $n$개의 표본 $\{X_1, X_2, ..., X_n\}$의 평균 $\bar{X} = \frac{X_1 + X_2 + ... X_n}{n}$의 분포는 $n$이 매우 커질 때, 평균이 $\mu$, 분산이 $\frac{\sigma^2}{n}$인 정규 분포에 수렴한다. 달리 표현하면, $Y = \sqrt{n}\frac{\bar{X}-\mu}{\sigma}$ 는 평균이 0이고 분산이 1인 (표준) 정규 분포에 수렴한다.
에 대해서 알아 보도록 하겠습니다. 우선, 수학적인 증명을 하기 앞서서, 실제 몇몇 구체적인 확률 변수(분포)를 이용하여 실제로 평균의 분포가 정규 분포에 수렴하는지를 확인해 보겠습니다.
연속 균등 분포를 활용한 중심 극한 정리의 이해
연속 균등 분포를 생각해 보겠습니다. 연속 균등 분포의 확률 밀도 함수는
$$p(x) =
\begin{cases}
\frac{1}{2}, & x \in [-1,1]\\
0, & \text{otherwise}
\end{cases}$$
로 주어집니다. 즉, 확률 변수 $x$는 -1보다 크거나 같고 1보다 작거나 같은 값을 갖는데, 확률을 균등합니다. 이 분포의 평균은 $\mu = 0$ 이고 분산은 $\sigma^2 = \frac{1}{3}$, 표준 편차는 $\sigma = \frac{1}{\sqrt{3}}$ 입니다.
파이썬 시뮬레이션을 통해서 $[-1,1]$ 사이의 실수를 무작위로 10,000개를 뽑고, 이를 이용하여 얻은 확률 밀도 함수 입니다. 다소 들쑥 날쑥 하긴 하지만, 확률 밀도 값은 대체로 $\frac{1}{2}$ 값을 갖습니다. 샘플링의 갯수를 크게 한다면 $\frac{1}{2}$ 값에 더 잘 수렴하게 될 것 입니다. $x$ 축의 값의 범위를 $(-4, 4)$로 다소 넓게 그렸는데, 나중에 나올 그래프와의 사이즈를 맞추기 위함 입니다.
이제, 동일한 분포에서 실수를 무작위로 20,000개를 뽑고, "2개씩 짝을 지어 평균($\bar{X} = \frac{X_1 + X_2}{2}$)을 구한 뒤, 이 평균에서 $X$의 분포의 평균을 빼고, $X$의 분포의 표준 편차로 나눈 뒤 $\sqrt{2}$를 곱한 수($Y_2$)"를 얻겠습니다. 앞 문장의 "설명" 부분을 수식으로 나타내면 간단하게
$$Y_2 = \sqrt{n}\frac{\bar{X} - \mu}{\sigma} = \sqrt{2}\frac{\bar{X}-0}{\frac{1}{\sqrt{3}}}$$
가 되고, 총 10,000개의 $Y_2$값이 구해집니다. 여기서 $Y$의 아랫 첨자 $2$는 "2"개의 $X$를 이용하여 얻어진 값을 나타내기 위해 특별히 표시하였습니다. 이 $Y_2$값들의 분포를 그래프로 나타내면
와 같습니다. $Y_1$의 분포($Y_1 = \frac{X}{\frac{1}{\sqrt{3}}} = \sqrt{3}X$이기 때문에 $Y_1$의 분포는 연속 균등 분포가 됩니다. $Y_1$의 범위는 자연스럽게 $[-\sqrt{3}, \sqrt{3}]$이 됩니다) 에서는 임의의 $Y_1$에 대해서 확률 밀도 값이 모두 같았는데, $Y_2$의 분포에서는 $Y_2$가 $0$에 가까울수록 확률 밀도의 값이 더 커졌습니다. 그리고 $Y_2$의 값이 0에서 멀어질수록 그 값은 선형적으로 줄어들고 있습니다. $Y_2$가 가질 수 있는 값의 범위는 $[-\sqrt{6}, \sqrt{6}]$으로 $Y_1$이 가질 수 있는 범위 $[-\sqrt{3}, \sqrt{3}]$에 비해서 음수, 양수 모두 $\sqrt{2}$ 배 만큼 커졌지만, $Y_2$값이 큰 범위에서 확률 밀도값 자체가 많이 작아졌기 때문에 $Y_2$가 $Y_1$이 가질 수 있는 값 이외의 값을 가질 확률은 그리 높지 않습니다.
$Y_2$의 분포는 해석적으로도 구할 수 있는데,
$$p(y_2) = \int \int p(x_1) p(x_2) \delta( y- \sqrt{2} \frac{\frac{x_1 + x_2}{2}}{\frac{1}{\sqrt{3}}})dx_1 dx_2 = \int_{-1}^{1} \int_{-1}^{1} \frac{1}{2} \frac{1}{2} \delta( y- \sqrt{2} \frac{\frac{x_1 + x_2}{2}}{\frac{1}{\sqrt{3}}}) dx_1 dx_2$$
로 부터,
$$p(y_2) =
\begin{cases}
-\frac{1}{6}y_2 + \frac{1}{\sqrt{6}}, & x \in [0,\sqrt{6}]\\
\frac{1}{6}y_2 + \frac{1}{\sqrt{6}}, & x \in [-\sqrt{6}, 0]\\
0, & \text{otherwise}
\end{cases} $$
입니다.
이번에는 $[-1,1]$범위에서 $30,000$개의 실수를 무작위로 뽑아서 위 과정을 반복해 보겠습니다.
$$Y_3 = \sqrt{n}\frac{\bar{X} - \mu}{\sigma} = \sqrt{3}\frac{\bar{X}-0}{\frac{1}{\sqrt{3}}}$$
을 10,000개 얻을 수 있고, 이 값들의 분포를 그래프로 그리면,
와 같습니다. $Y_2$의 확률 밀도 함수에 비해서 $Y = 0$ 집중도가 더 커졌습니다. $Y_3$가 가질 수 있는 값의 범위는 $[-3,3]$으로 $Y_2$의 그것에 비해서 $\sqrt{6} \rightarrow 9$으로 커졌지만, $Y_1 \rightarrow Y_2$의 경우와 마찬가지로, $Y_3$값이 커지는 범위에서의 확률 밀도 값 자체가 매우 작아지기 때문에 $Y_3$가 $Y_2$가 가질 수 없는 범위의 값을 가질 확률은 그리 높지 않습니다. $Y_2$의 확률 밀도 함수에서는 $Y_2$값이 0에서 벗어날 수록 확률 밀도 함수는 선형적으로 감소하였는데, $Y_3$의 확률 밀도 함수에서는 그 보다 빠르게 0으로 감소합니다. $n=3$의 경우도, $n=2$의 경우에서 처럼 $Y_3$의 확률 밀도 함수를 해석적으로 구할 수 있습니다. 독자분께서 직접해 보시길 추천합니다.
이번에는 $Y_10$의 확률 밀도 함수를 (시뮬레이션을 통해) 구해 보도록 하겠습니다. $Y_2, Y_3$을 구했던 방식과 동일 합니다. 이번에는 $[-1,1]$범위의 무작위 실수 10개를 뽑아서 평균을 구하고 이 값들의 분포를 그리는 것 입니다. 컴퓨터 시뮬레이션에서는 $n$의 값만 바꿔 주면 되는 것이니 쉽게 할 수 있습니다.
$Y_{10}$의 확률 밀도 함수는 위와 같습니다. 좀 더 부드럽게 변화하는(중간에 튀는 값을 없애기 위해서) 확률 밀도 함수를 얻기 위해서 10,000개가 아닌 100,000개의 $Y_{10}$값을 구하고 이것의 분포를 구했습니다. $Y_1 \rightarrow Y_2 \rightarrow Y_3 \rightarrow Y_10$으로 $n$의 값을 키워 오면서 $Y=0$의 집중화 및 $Y=0$으로 벗어날 수록 확률 밀도 함수 값이 빠르게 0으로 수렴하는 정도가 더 커지고 있습니다.
중심 극한 정리가 말해주는 것은 $Y_{10}$의 분포가 표준 정규 분포와 매우 닮아진다는 것 입니다. 그래서 시뮬레이션으로 얻은 위 $Y_{10}$의 확률 밀도 함수에 표준 정규 분포 그래프를 함께 그리면,
로 두 확률 밀도 함수가 매우 일치합니다! 간단한 시뮬레이션을 통해서 실제로 중심 극한 정리가 성립한다는 것을 확인하였습니다. 엄밀한 수학적인 증명에서는 "$n$이 무한히 커지는 극한" $Y_n$의 확률 밀도 함수가 표준 정규 분포에 수렴한다고 하지만, 실제 구체적인 시뮬레이션에서는 대략적으로 $n=10$ 정도만 되어도 두 확률 밀도 함수가 매우 유사해진다는 것을 확인할 수 있습니다. 물론 얼마간의 차이가 생기긴 합니다.
위 결과를 요약하여 하나의 그래프에 그리면 아래와 같습니다. $n=1,2,3,5,10,30$의 경우를 하나의 그래프로 표현하였습니다. $n$이 커짐에 따라서 $Y_n$의 분포가 표준 정규 분포로 수렴해 가는 것을 볼 수 있습니다. $Y_1$의 분포가 균등 분포 이기 때문에, $n=5$ 정도만 돼도 충분하게 닮았습니다.
매우 특이하게 생긴 확률 밀도 함수에 중심 극한 정리 적용
연속 균등 분포는 매우 "평범한" 분포이기 때문에 $n=5$ 정도만 돼도 표준 정규 분포와 유사한 분포가 얻어짐을 확인했습니다. 이번에는 조금 특이한 분포에 대해서 위 과정을 똑같이 적용해 보도록 하겠습니다.
위 분포 (하늘색)은 파레토 분포 (Pareto distribution)으로
$$p(x) =
\begin{cases}
\frac{\alpha x_m^{\alpha}}{x^{\alpha + 1}}, & x \gt x_m\\
0, & \text{otherwise}
\end{cases}$$
입니다. 위에서는 $x_m = 1, \alpha = 6$ 을 사용하였습니다. $Y_1$은 $X$를 평균 만큼 이동(shift)하고 표준 편차 만큼 크기를 조정(scaling)한 것이니 위와 같은 분포를 갖게 됩니다. 위 파레토 분포에 대해서 $Y_n$을 구하고, $Y_n$의 분포를 그리면 아래와 같습니다.
$n$의 값이 커질 수록 $Y_n$의 분포는 표준 정규 분포 (붉은색 선)과 닮아 갑니다. $n$의 증가에 따라 파레토 분포로 부터 얻은 $Y_n$이 표준 정규 분포로 닮아 가는 정도는 연속 균등 분포로 부터 얻은 $Y_n$이 표준 정규 분포로 닮아 가는 정도에 비해서 매우 느린데, 연속 균등 분포의 경우 $n=10$ 정도만 되도 표준 정규 분포랑 비슷했지만, 파레토 분포의 경우 $n=10$에서는 아직 정규 분포와 파레토 분포 그 차제의 중간 정도의 개형을 갖습니다. 파레토 분포는 평균을 중심으로 매우 비대칭적인 확률 분포 값을 갖기 때문에, $n=10$에서는 아직 비대칭성이 사라지지 않고 있습니다. 위 그래프의 오른쪽 아래 $n=500$정도 되면 표준 정규 분포와 유사해 지긴 하는데, 아직까지도 $Y_{500} = 0$을 기준으로의 비대칭성은 약간 남아 있습니다. 어쨌든, 파레토 분포와 같은 비대칭적이면서 이상한 분포에서도 중심 극한 정리가 잘 적용됨을 확인하였습니다.
두 확률 변수의 합의 확률 변수의 분포의 확률 밀도 함수에 중심 극한 정리 적용
이번에는 두 확률 밀도 함수를 더해서 생긴 새로운 확률 밀도 함수에 대해서 같은 계산을 반복해 보겠습니다. 즉 서로 다른 확률 밀도 함수를 따르는 확률 변수 $X_1$과 $X_2$에 대해서,
$$X = X_1 + X_2$$
와 같이 새로운 확률 변수 $X$를 정의 하겠습니다. 이번 예시에서는 앞에서 살펴본 파레토 분포와 푸아송 분포를 각각 $X_1, X_2$로 사용하겠습니다. 푸아송 분포는 연속 확률 분포는 아니고 불연속적인 확률 분포 입니다. 푸아송 분포에서 $X$값은 정수 값을 가질 수 있는데, 이 값을 이동(shift)와 크기 변환(scaling)을 하여 연속 확률 변수인 것 처럼 만들었습니다. 이 확률 밀도 함수를 이용하여 $Y_1$를 구하면 아래와 같습니다.
$Y_1 = 0$을 기준으로 왼쪽(음수)쪽에는 파레토 분포가 오른쪽(양수)쪽에는 푸아송 분포가 주로 분포합니다. 파레토 분포는 $+ \infty$값을 가질 수 있기에 양수 부분에도 파레토 분포의 "꼬리"가 있습니다. 이 분포에 대해서 $Y_n$을 구하고 그의 분포를 구하면 아래와 같습니다.
대략 $n=50$ 정도에서 $Y_{50}$과 표준 정규 분포가 거의 같아집니다.
중심 극한 정리의 증명
중심 극한 정리의 증명에서는 확률 밀도 함수의 특성 함수가 이용됩니다. 확률 변수 $X$에 대해서 특성 함수는
$$\phi_X(t) = E[e^{itX}]$$
로 정의 됩니다. 여기서 $E[]$는 기대값을 의미합니다. 만일 확률 변수 $X$에 대응되는 확률 밀도 함수 $P(x)$가 있다면, 특성 함수는 $P(x)$의 푸리에 변환이 됩니다. 즉,
$$\phi(t) = \int e^{itx} P(x)dx$$
입니다.
앞에서 확률 변수 $X$에 대해서 새로운 확률 변수 $Y_n = \sqrt{n}\frac{\bar{X}-\nu}{\sigma}$ 를 정의 했는데, $Y_n$에 대한 특성 함수를 구해 보도록 하겠습니다. 편의를 위해서, 새로운 확률 변수 $Z$를 다음과 같이 정의 하도록 하겠습니다.
$$Z = \frac{X-\mu}{\sigma}$$
확률 변수 $Z$는 원래 확률 변수 $X$에서 평균 만큼 뺀(이동)하고, 표준 편차로 나눈 것 입니다. 따라서 확률 변수 $Z$의 평균은 $0$, 표준 편차는 $1$이 됩니다. $Y_n$과 $Z$의 관계는,
$$Y_n = \sum_{i=1}^{n}\frac{1}{\sqrt{n}}Z_i$$
가 됩니다. 이제 $Y_n$에 대한 특성 함수는 푸리에 변환과 $Z$의 정의에 따라서,
$$\phi_{Y_n}(t) = \phi_{Z_1}(\frac{t}{\sqrt{n}}) \phi_{Z_2}(\frac{t}{\sqrt{n}}) \cdots \phi_{Z_n}(\frac{t}{\sqrt{n}}) = \Big[ \phi_{Z_1}(\frac{t}{\sqrt{n}}) \Big]^n$$
와 같이 $Z$의 특성 함수 $\phi_Z(t)$에 의해 결정 됩니다. 첫 번째 등호에서 서로 독립인 확률 변수 $Z_1, Z_2$에 대해서, $E[e^{it(Z_1 + Z_2)}] = E[e^{itZ_1}] E[e^{itZ_2}]$를 이용하였습니다. 두 번째 등호 에서는 $Z_1, Z_2, ..., Z_n$이 같은 분포라는 성질을 이용하였습니다.
임의의 확률 변수 $X$에 대해서 특성 함수 $\phi_X(t)$를 $t$에 대해 전개하면, $e^{itX} = 1 + itX -\frac{1}{2}t^2 x^2 + \cdots$로 부터,
$$\phi_X(t) =\int (1 + itx - \frac{1}{2}t^2 x^2 + \cdots ) P(x)dx =1 + it \mu - \frac{1}{2}t^2 \sigma^2 + \cdots$$
를 얻습니다. 위 식에서 $X$ 자리에 $Z$를 대입하면, $phi_Z(t)$를 구할 수 있는데, $Z$는 앞에서 정의한 바에 따라 평균 $0$이고 분산이 $1$이었습니다. 따라서, $\phi_Z(t) = 1 - \frac{t^2}{2n} + \cdots$가 됩니다. 따라서 우리가 얻으려고 한 $Y_n$의 특성 함수는
$$\phi_{Y_n}(t) = \Big[ 1 - \frac{t^2}{2n} + \cdots \Big]^n$$
이고 $n \rightarrow \infty$에서, 이 값은 $e^{-\frac{1}{2}t^2}$ 이 됩니다. 이 과정에서 자연 상수 $e$의 정의, $e = \lim_{N \rightarrow \infty} (1 + \frac{1}{N})^N$을 이용하였습니다.
위 두 문단을 통해 $Y_n$의 특성 함수는 $e^{-\frac{1}{2}t^2}$이라는 것을 구했는데, $e^{-\frac{1}{2}t^2}$는 다름 아닌, 표준 정규 분포 $N(0, 1)$의 특성 함수 입니다. 따라서
$$Y_n = N(0, 1), \text{ as } n \rightarrow \infty$$
이 됩니다. (증명 끝)
위 증명에서 $Z$의 평균이 $0$, 표준 편차가 $1$이라는 것과 $n$이 무한히 크다는 것을 이용하였습니다. $Z$는 $Y$에서 평균 만큼 이동과 표준 편차 만큼 크기 변환을 통해 얻어진 것으로, 결국 $Y$의 평균과 표준 편차가 유한하면 $Z$의 정의에 따라서 $Z$의 평균은 $0$, 표준 편차는 $1$이 됩니다. 위 증명에서 $Y$나 $Z$가 특정한 분포를 따라야 한다는 조건은 없었습니다. 따라서, 중심 극한 정리는 평균과 표준 편차가 유한한 임의의 확률 변수에 대해서 성립하게 됩니다.
분산이 유한하다는 것이 중요합니다. 보통 우리가 다루는 확률 변수의 경우, 평균은 유한한 값인데, 표준 편차가 유한하지 않은 (즉, 무한대로 발산하는) 경우가 종종 있습니다. 예를들어, 확률 변수 $X$가 확률 밀도 함수
$$P(x) = \frac{c}{x^3}, x \gt 1$$
를 따르는 경우를 생각해 보겠습니다. 여기서 $c$는 정규화 상수 입니다. 이 확률 변수의 평균 $E[X]$는 정의에 따라,
$$E[X] = \int_1^{\infty} x \frac{c}{x^3} = \int_{1}^\infty \frac{c}{x^2} \lt \infty$$
로 잘 정의 되지만, 분산(표준 편차의 제곱)은
$$V[X] = \int_1^\infty \frac{c}{x} dx$$
로 발산하게 됩니다. 따라서, 이 확률 변수에 대해서는 중심 극한 정리가 성립 하지 않습니다. 상당히 높은 확률로 확률 변수의 값이 무한대가 되는 경우가 있으니, $Y_n$의 값이 무한대가 될 수 있습니다. 그러나 표준 정규 분포는 대부분의 확률이 $0$ 부근에 집중 돼 있습니다.
표본 평균의 표준 편차는 $n$이 커질 수록 감소한다
위 유도, 혹은 지금까지 대부분의 전개에서는 편의상 $Y_n$ 이라는 확률 변수를 이용하였습니다. 이를 우리의 원래 관심이었던 확률 변수 $X$에 대해서 다시 환원하여 설명할 필요가 있습니다. $Y_n = \sqrt{n} \frac{\bar{X}-\mu}{\sigma}$의 정의에 따라서, 우리의 원래 관심사였던 $\bar{X}$는 평균이 $\mu$이고 표준 편차가 $\frac{\sigma}{\sqrt{n}}$인 정규 분포 $N(\mu, \frac{\sigma^2}{n})$을 따르게 됩니다. 즉, 확률 변수 $n$개를 뽑아서 평균을 내면($\bar{X}$), 그 평균은 확률 변수의 원래 평균과 일치하고, 표준 편차는 $\sqrt{n}$에 반비례하여 작아지게 됩니다. $X_1, X_2, ..., X_n$ 개개이 값은 평균에서 대략적으로 $\sigma$만큼 떨어져 있지만, $\bar{X}$는 $n$이 커질 수록 $X$의 평균 $\mu$를 벗어날 가능성이 없어집니다. 즉, $n$이 크다면, 실현된 몇몇 소수의 $X_i$값이 평균에서 부터 표준 편차에 비해 많이 떨어진 값을 가질 수 있지만, 이것들을 모두 평균을 낸다면 원래 확률 변수의 평균값과 동일한 값을 가지게 될 뿐 아니라, 그렇지 않을 확률은 거의 없게 됩니다.
매우 정성적인 증명
특성 함수를 이용한 중심 극한 정리의 증명은 간단하지만 단순 식의 전개라 뭔가 직관적이지 않고 마음에 와 닿지 않습니다. 머리로는 이해가 가능하지만, 마음으로는 이해가 되지 않는 증명입니다.
표준 정규 분포는 지수 함수의 성질에 따라서, 대부분의 확률 밀도가 $0$ 부근에 집중 돼 있습니다. 확률 변수의 값이 커질 수록 확률 밀도 함수 값이 지수적으로 감소하기 때문에, $0$ 보다 매우 큰 값이 될 가능성은 사실상 $0$입니다. 중심 극한 정리가 말해주는 것은 결국 "유한한 분산을 갖는 독립적이고 동등한 확률 변수(편의상 평균이 $0$이 되도록 이동했다고 하겠습니다) $n$개를 뽑고 이것들의 평균을 내면 $0$에 가까운 값을 갖고, 평균이 표준 편차 보다 큰 값을 가질 가능성은 없다" 입니다. 만일 $n$개를 뽑아서 평균을 구했는데, 이 평균이 표준 편차에 비해 매우 큰 값을 갖는다면, 뽑힌 $n$개의 값이 모두 평균 보다 표준 편차 만큼은 커야 할 것 입니다. 1개의 확률 변수가 평균 대비 표준 편차 만큼 클 확률을 $p$라고 한다면, $n$개의 확률 변수가 모두 평균 대비 표준 편차 만큼 클 확률은 $p^n$이 됩니다. $p \lt 1$이고, 만일 $n$이 무한히 커진다면, 이 확률은 $0$이 됩니다.
위 논의는 $Y_n$의 확률 밀도 함수가 $0$ 주변에 몰려 있음을 보여줄 뿐, $Y_n$이 정규 분포를 따른다는 것을 보여주지는 않습니다. $Y_n$이 정규 분포가 됨은 이항 분포를 이용하여 설명할 수 있습니다. 매우 근사적으로 볼 때, 확률 변수의 값이 평균 보다 큰 경우와 평균 보다 작은 경우의 확률을 동등하게 $\frac{1}{2}$로 생각할 수 있습니다. 평균 보다 큰 경우의 평균을 $x_{\text{larger}}$, 평균 보다 작은 경우의 평균을 $x_{\text{smaller}}$라고 한다면, 매우 매우 근사적으로 볼 때, 확률 변수의 확률 밀도 함수는
$$p(x) =
\begin{cases}
\frac{1}{2}, & x = x_{\text{larger}}\\
\frac{1}{2}, & x = x_{\text{smaller}}\\
0, & \text{otherwise}
\end{cases}$$
로 볼 수 있습니다. 다시 강조를 하지만 매우 매우 근사적으로 생각할 수 있는 등식입니다. 위 확률 밀도 함수는 이항 분포의 확률 밀도 함수로, 이항 분포를 갖는 확률 변수의 샘플링 시행을 많이 할 수록 샘플링 된 평균 값의 분포는 정규 분포에 가까워 진다는 것을 이미 알고 있습니다. 이와 같은 방식을 통해서 $Y_n$의 확률 밀도 함수가 정규 분포를 따른다는 것을 추론 할 수 있습니다. 다시 한 번 강조하건데, 매우 정성적인 해석입니다.
일반화된 중심 극한 정리
위에서 설명하고 증명한 중심 극한 정리는 소위 "고전적인 중심 극한 정리"로 불립니다. 이 고전적인 중심 극한 정리에서는 하나의 독립적이고 동등한 확률 변수에 대해서 다루고 있습니다. 일반적인 중심 극한 정리, 예를들면 Lyapunov의 중심 극한 정리에서는 확률 변수 $X_i$가 동등하지 않은 확률 변수인 경우에 대해서 다루고, 이 경우에도 고전적인 중심 극한 정리와 같이, $X$로 부터 (간단한 방식을 통해) 새롭게 잘 정의된 확률 변수가 표준 정규 분포를 따르게 됩니다. 이를 일상의 용어로 옮기면, 서로 다른 원인으로 부터 얻어지는 무자위 변수 여러 개를 더하게 되면 (물론 간단한 이동, 크기 조정의 과정이 필요합니다) 표준 정규 분포가 얻어진다는 것 입니다.
자연계, 혹은 사회 현상에서 접하는 무작위 수의 분포가 정규 분포 혹은 정규 분포와 같이 종형 분포를 갖게 되는 수학적인 이유가 바로 이 일반화된 중심 극한 정리에 있습니다. 우리가 관찰하는 자연계 현상은 수 없이 많은 원인들에 의해서 발현되게 되는데, 현상이 발현되는 조건에 따라서 "원인의 값"은 무작위 값을 갖게 됩니다. 다양한 무작위가 잘 더해지고 나누어 지고...의 과정을 겪다 보면 최종적으로 발현되는 값은 정규 분포를 갖게 되는 것 입니다. 사람의 키이 분포는 정규 분포를 보이게 되는데, 각 사람 마다의 유전자의 차이, 생활 방식의 차이, 영양 상태의 차이 등 다양한 무작위적인 조건이 키의 원인이 되고, 이 다양한 무작위성으로 인해 키의 분포는 정규 분포를 따르게 됩니다.
개인적 의견
중심 극한 정리에 대해서 처음 접하고 나서 "이렇게 대단한 정리가 있나?" 라고 생각하였습니다. 이항 분포와 같은 매우 특별한 확률 분포를 따르는 경우에는 $Y_n$의 분포가 표준 정규 분포를 따르게 된다는 것은 고등학교 때 이미 배워서 특별하진 않았지만, "유한한 표준 편차를 갖는 임의의 확률 밀도 함수"에 대해서 $Y_n$의 분포가 표준 정규 분포를 따른다는 것은 매우 놀라웠습니다. 또한 중심 극한 정리의 증명이 위와 같이 대략 한 2문단으로 증명 될 수 있다는 것 역시 놀라웠습니다(물론 보다 일반적인 경우의 중심 극한 정리를 엄밀하게 증명하기 위해서는 매우 많은 수학적 지식이 필요합니다) $n$이 커질 때, $Y_n$이 수렴하는 분포가 다른 분포가 아닌 정규 분포라는 점에서 또 한 번 정규 분포의 위대함을 느낄 수 있었습니다. 동시에, 정규 분포를 발견하고 이를 연구한 수학자 칼 프리드리히 가우스(와 다른 수학자들)의 위대함 역시 느낄 수 있었습니다.