주식_정량적_분석

주식의 정량적 분석 (1) : 주가 변화의 분포 - 정규 분포가 아닌 라플라스 분포!

공부하는박사곰 2021. 1. 27. 23:22
728x90

 

주가는 인문, 사회적인 요인에 의해 변동하지만 결과만 놓고 본다는 주가는 단순히 일종의 시계열(Time series)이기에 수학적인 방법론을 이용하여 주가의 변화을 분석할 수 있다. 연속된 포스팅에서는 주가의 변화가 과연 어떠한 수학적, 통계학적 성질을 띄고 있는지에 대해서 알아 볼 것이다. 이번 포스팅에서는 가장 간단한 분석이라 할 수 있는 "주가의 변화는 과연 어떠한 분포를 따르는가?"에 대한 답을 해 볼 것이다. 

 

주가의 변화는 어떤 분포를 따르는가?

 

위 그래프는 2000년 1월 1일 부터 현재 (2021년 1월 25일)까지 삼성전자의 주가 그래프이다. 주가는 매일 변화하였고, 그 결과 약 20년만에 10배 인상되었다. 

 

위 그래프는 지난 10년 간, 일봉 차트의 등락을 나타낸 것이다. 붉은색은 주가가 상승한 경우, 푸른색은 주가가 하락한 경우이다. (맨 처음 차트와 같이 최근 20년간 등락을 그리고 싶었지만, 일봉 차드 등락으로 그리는 경우 너무 세세하게 나오기 때문에 기간을 10년으로 단축하였다)

 

위 그래프는 일간 변화를 히스토그램으로 나타낸 것이다. 편의상 하루 변화량이 -10% 보다 크고 10% 보다 작은 경우로 제한하여 그렸다. 변화량이 -10%보다 작고, 10%보다 큰 경우의 빈도는 거의 없기 때문에, 사실상 무시해도 좋다.

 

이 그래프를 통해서 주가의 변화량이 어떤 분포를 따르는지를 알 수 있는데, 일상의 경험과 부합되게, 평균이 약 0이고, 변화량이 클 수록 빈도가 작은 결과를 나타내고 있다. 

 

위 분포는 수학적으로 어떻게 설명할 수 있을까? 보통 주가의 변화는 랜덤 워크를 따른다고 가정 한다. 왜 랜덤 워크를 따르는 시계열인지에 대해서는 특별한 설명이 없으나, 단지 랜덤 워크를 따른다면, 매우 수학적으로 다루기 쉽기 때문에 랜덤 워크라는 가정을 하고 분석을 하는것이 일반적이다. 만일 정말로 랜덤 워크를 따른다고 한다면, 위 히스토그램은 정규분포를 따라야 하는데, 위 분포의 평균과 표준편차를 계산하고 그에 맞는 정규 분포를 함께 그리면,

와 같이 실제 분포와 정규 분포가 일치 하지 않음을 확인 할 수 있다. 너그러운 마음으로 "일치한다" 라고도 볼 수 있겠지만, 사실 너무 다르다. 실제 분포는 정규 분포에 비해서 평균 (대략 0) 부분의 비율이 더 크고, 변화량이 커질 수록 그 빈도가 급격하게 줄어듦을 확인할 수 있다. 따라서 그러한 분포를 찾아 주어야 하는데, 

라플라스 분포는 이와 부합되며, 정규 분포에 비해서 훨씬 더 실제 분포를 잘 설명함을 위 그래프를 통해서 확인할 수 있다. 변화량 = 0 부근에서 잘 맞지 않음을 볼 수 있는데, 이것은 히스토그램을 그리는 과정에서 bin 설정에 따른 일종의 artifact라고 할 수 있다. 정규 분포에 비해서 거의 모든 영역에서 실제 데이터를 잘 묘사한다고 할 수 있다. 라플라스 분포의 정확한 확률 밀도 함수 수식은 아래와 같다.

 

$$p(x) = \frac{1}{2b} e^{-\frac{|x-\mu|}{\sigma}}, \text{where } b = \frac{\sigma}{\sqrt{2}}$$

 

라플라스 분포 보다 실제 데이터를 더 잘 설명하는 확률 밀도 함수가 있을 수 도 있겠지만, 라플라스 분포는 매우 간단하면서도 실제 데이터를 그런대로 잘 설명하기 때문에, 더 이상 분석을 할 필요는 없어 보인다.

위 그래프는 누적 분포 그래프로, 위 히스토그램에서 x값(일간 변화량)이 작은값 부터 근값까지를 적분하여 나타낸 그래프이다. 삼성전자와 같이 시가 총액이 큰 주식은 일간 변화량이 그리 크지 않은데, 2.5% 이상 상승하는 경우는 전체의 1/10, 2.5%이상 하락 하는 경우 역시 전체의 1/10 정도였다. 한 달 동안 거래일이 보통 20일이기 때문에, 2.5%이상 크게 상승하는 날은 한달에서 보통 2일, 2.5%이상 크게 하락하는 날 역시 한달에서 보통 2일 임을 확인할 수 있다. 

 

삼성전자만 위 분포를 따를 수 도 있기 때문에, 다른 종목에 대해서도 확인해야 한다. 

위는 하이닉에 대한 결과이다. 그래프만 봐도 하이닉스의 변동폭이 삼성전자의 변동폭 보다 훨씬 크다는 것을 확인할 수 있다. 또 실제 데이터 (히스토그램)과 라플라스 분포(진한 파란색 선)이 일치함을 확인할 수 있다. 삼성전자의 예시에 비해서는 덜 맞지만, 빈도가 높은 0% ~ 2.5% 범위를 상당히 잘 설명하고 있다. 중간 중간에 히스토그램이 삐죽 삐죽 튀는 것을 볼 수 있는데, 이는 역시 히스토그램을 그리는 bin 은 어쩔 수 없이 불연속적이기 때문에 생기는 일종의 artifact이다. 

 

삼성전자 주가(붉은색)의 변화 분포와 하이닉스 주가(파란색)의 변화 분포를 함께 그리면 위와 같다. 앞에서 언급한 바와 같이 하이닉스의 변동성이 삼성전자의 변동성 보다 더 큼을 확인할 수 있는데, 각 분포의 표준편차를 구해보면

 

삼성전자 : 2.27%

하이닉스 : 3.94%

 

로 하이닉스가 더 크다. 실제로 하이닉스의 경우, 2.5% 이상 하락하거나 2.5%이상 상승하는 날은 한달에 약 7~8일로, 삼성전자의 4일 보다 약 2배더 많다. 

 

 

 

728x90