https://studyingrabbit.tistory.com/42
주성분분석(PCA : Principal Component Analysis) (1) - 분포의 특성을 가장 뚜렷하게 표현하는 좌표 축의 방
PCA(주성분분석, Principle Compoent Analysis)는 특성 공간(feature space)상에 존재하는 데이터의 분포를 활용하여 분포의 특성을 가장 뚜렷하게 표현하는 주축 벡터(principal vector 혹은 principal axis)를..
studyingrabbit.tistory.com
지난 포스팅에서 주성분분석의 기본적인 개념과 주축 벡터를 구하는 방법에 대해서 알아 보았습니다. 요약하면 주축 벡터는 데이터의 분포 특성을 가장 뚜렷하게 표현하는 특성 공간의 좌표축의 방향이라고 할 수 있습니다. 가장 뚜렷하다는 것은 해당 좌표축의 방향의 분산을 크게 함을 뜻 합니다.
이번 포스팅에서는 주성분분석에서 나오는 공분산행렬Covariance Matrix와 주축 벡터가 갖는 수학적인 성질을 선형대수학의 개념을 활용하여 알아보도록 하겠습니다. 행렬과 벡터에 대한 일반적인 지식이 있다면 어렵지 않게 포스팅을 이해할 수 있을 것 입니다.
선형대수학의 일반적인 방법을 PCA에 적용하기
공분산행렬에 대한 정의를 다시 쓰면, 데이터 집합
와 같이 정의 됩니다. 윗첨자는 특성공간의 차원을 뜻하고, 아랫첨자는 데이터의 인덱스를 뜻 합니다. 윗첨자와 제곱이 헷갈릴 수도 있는데, 제곱이 나오는 경우에는 뚜렷하게 제곱임을 나타내도록 하겠습니다. 데이터 집합
이 행렬은 정사각 행렬이며 대칭 행렬이기 때문에, 선형대수학의 유명한 정리에 따라서 고유벡터가 존재하며 고유값은 항상 실수가 되게 됩니다.
이 됩니다. 여기서
행렬 대각화를 통해서 얻은 고유 벡터들은 상호 수직하기 때문에, 공간의 기저 벡터가 됩니다. 즉 데이터(일반적인 벡터)를 원래의 기저 벡터
와 같이 두 가지 방식으로 표현할 수 있습니다.
이를 간단히하면 행렬
와 같이 대각선 성분만 남기고 나머지 성분을 모두 0으로 만들 수 있습니다. 대각선 성분은 각
고유값이 작은 고유 벡터는 무시할 수 있다 : 차원 축소
PCA는 차원 축소에 주로 이용되는데, PCA가 차원 축소에 이용될 수 있는 근거는 PCA 변환은 분산이 큰 주축 벡터에서 부터 분산이 작은 주축 벡터의 순서를 매겨준다는 것에 있습니다.
와 같이 쓸 수 있습니다. 이 때,
이 됩니다. 여기서
이와 같은 성질을 이용하여 분산이 특정한 값 보다 더 작은 주축 벡터의 성분은 무시 할 수 있습니다. 예를들어서 3번째 고유 벡터의 분산값이
가 됩니다. 따라서
즉, 원래 특성 공간의 데이터(벡터)
PCA 변환은 직교 변환
주축 벡터를 기저로 하는 좌표 변환
가 됩니다.
내적을 보존한다는 것은 매우 중요한 성격이며, PCA를 활용할 때 매우 다양하게 활용될 수 있습니다. 예를들면, 내적이 보존되면 거리(길이) 역시 보존됩니다. 왜냐하면 (유클리드 공간에서) 거리는 내적으로 부터 정의가 되기 때문인데,
를 만족합니다. 원래 공간에서 벡터의 길이 (피타고라스의 정리를 이용하여) 계산하는 것이나, 이 벡터를 주축 벡터를 기저로 하는 공간으로 변환하여 벡터의 길이를 계산하는 것이나 같은 값을 준다는 뜻 입니다.
고유 벡터의 기하학적 의미를 생각하면
임의의 공분산행렬이 주어진다면, 이러한 공분산행렬을 주는 분포를 여러개(정확히는 무한개) 만들어 낼 수 있습니다. 그 중에서 가장 쉬운 방법은 다변량 정규분포Multivariate Normal Distribution을 생성하는 것인데, 공분산행렬이
의 공분산행렬은 정확히
구체적으로

와 같습니다. 위 등고선은
2차형식과 행렬의 대각화에 대해서 다룬 이전 포스팅을 본다면 조금 더 많은 이해를 할 수 있을 것 입니다.
https://studyingrabbit.tistory.com/6?category=911605
[선형대수-2] 이차형식과 행렬 대각화 : 고유값에 따른 타원곡선의 결정
이번 포스팅에서는 행렬의 대각화가 이차형식에 대해 이해하는데 어떻게 활용 될 수 있는지를 알아보겠습니다. 행렬의 대각화를 이용해 복잡한 것을 단순하게 이해하는 가장 기본적인 예시라
studyingrabbit.tistory.com