ARIMA: Time Series Analysis 모형

카테고리 없음 2020. 3. 12. 19:51

데이터마다 특징이 있다. 예를 들어, 마스크에 대한 수요 데이터를 따져보자. 요즘 빠르게 퍼지고 있는 코로나 바이러스에 따라 마스크의 수요가 급증했다. 마스크에 대한 공급을 정부에서 담당하여, 약국에서 250개씩 할당하고 있을만큼 ...

이때의 마스크의 수요는 무엇에 영향을 받았을까? 당연하게도 코로나의 전파력과 사람의 공포심에 따라 크게 변동할 것이다. 특별한 시간적 흐름보다는 외국에서 유입된 인원, 특히 중국 우한을 방문했던 사람들의 숫자 그리고 국내에서는 대구에 방문한 사람들의 수와 경로에 영향을 받을 것이다. 추가적으로 언론에서 코로나를 다루는 방향과 보도 횟수에 따라 크게 수요는 널뛸 것이다. 아침마당에 소개되는 암예방, 치매예방에 대한 음식, 재료가 소개될 경우 마트에서 매출이 급격하게 증가하는 것도 이와 같은 현상이다.

수요를 Y로 했을때, 목표값은 시간보다 다양한 원인 변수에 의해 움직이다. 이와 같이 하나의 Y값에 대한 원인 변수X가 많은 경우, 다중 회귀 분석을 통해, 유의미한 원인 변수를 선별하고 선형식으로 만들어 낼 수 있다.

하지만, 미세먼지에 따른 마스크의 수요는 어떠할까? 아마도 시간에 영향을 많이 받을 것이다. 미세먼지가 심한 봄과 가을에 마스크에 대한 수요가 급증할 것이다. 이때 다른 원인 변수가 큰 영향을 받지 않고 하나의 데이터와 시간만이 존재한다. 오로지 이전의 값과 추세만으로 다음 값을 예측해야한다.

시계열 분석은 크게 규칙적 시계열 분석과 불규칙적 시계열 분석으로 나뉜다. 여기서 규칙적 시계열이란 트렌드와 분산이 불변하는 시계열 데이터를 말하고, 불규칙적 시계열이란 트렌드 혹은 분산이 변화하는 시계열 데이터를 말하는 것이다.

오늘은 대표적인 시계열 모형인 ARIMA 모델을 소개할 것이다. ARIMA 모델은 AR과 MA 모델을 합쳐놓은 것이다. 따라서 각각의 모형에 대해 우선 알아보자 .

아래 설명을 참고했다.

https://m.blog.naver.com/bluefish850/220749045909

시계열 분석(Time Series Analysis)-모형

필자가 이전에 개괄에서 언급한 시계열의 한계에 대해서 이해했다면, 이제 간단히 시계열 정보를 접근하는 ...

blog.naver.com

요약해서 말하자면, AR모형은 자기상관(Autocorrelation)으로 Random variable에 대해서 이전의 값이 이후의 값에 미치고 있는 상황을 말한다. 예를 들면, 이전의 값이 크면, 다음은 값이 작아지는 경향에 대한 이야기이다. 마치 용수철 처럼 평균의 길이를 유지하려는 성향이다.