-
ARIMA: Time Series Analysis 모형카테고리 없음 2020. 3. 12. 19:51
데이터마다 특징이 있다. 예를 들어, 마스크에 대한 수요 데이터를 따져보자. 요즘 빠르게 퍼지고 있는 코로나 바이러스에 따라 마스크의 수요가 급증했다. 마스크에 대한 공급을 정부에서 담당하여, 약국에서 250개씩 할당하고 있을만큼 ...
이때의 마스크의 수요는 무엇에 영향을 받았을까? 당연하게도 코로나의 전파력과 사람의 공포심에 따라 크게 변동할 것이다. 특별한 시간적 흐름보다는 외국에서 유입된 인원, 특히 중국 우한을 방문했던 사람들의 숫자 그리고 국내에서는 대구에 방문한 사람들의 수와 경로에 영향을 받을 것이다. 추가적으로 언론에서 코로나를 다루는 방향과 보도 횟수에 따라 크게 수요는 널뛸 것이다. 아침마당에 소개되는 암예방, 치매예방에 대한 음식, 재료가 소개될 경우 마트에서 매출이 급격하게 증가하는 것도 이와 같은 현상이다.
수요를 Y로 했을때, 목표값은 시간보다 다양한 원인 변수에 의해 움직이다. 이와 같이 하나의 Y값에 대한 원인 변수X가 많은 경우, 다중 회귀 분석을 통해, 유의미한 원인 변수를 선별하고 선형식으로 만들어 낼 수 있다.
하지만, 미세먼지에 따른 마스크의 수요는 어떠할까? 아마도 시간에 영향을 많이 받을 것이다. 미세먼지가 심한 봄과 가을에 마스크에 대한 수요가 급증할 것이다. 이때 다른 원인 변수가 큰 영향을 받지 않고 하나의 데이터와 시간만이 존재한다. 오로지 이전의 값과 추세만으로 다음 값을 예측해야한다.
시계열 분석은 크게 규칙적 시계열 분석과 불규칙적 시계열 분석으로 나뉜다. 여기서 규칙적 시계열이란 트렌드와 분산이 불변하는 시계열 데이터를 말하고, 불규칙적 시계열이란 트렌드 혹은 분산이 변화하는 시계열 데이터를 말하는 것이다.
오늘은 대표적인 시계열 모형인 ARIMA 모델을 소개할 것이다. ARIMA 모델은 AR과 MA 모델을 합쳐놓은 것이다. 따라서 각각의 모형에 대해 우선 알아보자 .
아래 설명을 참고했다.
https://m.blog.naver.com/bluefish850/220749045909
요약해서 말하자면, AR모형은 자기상관(Autocorrelation)으로 Random variable에 대해서 이전의 값이 이후의 값에 미치고 있는 상황을 말한다. 예를 들면, 이전의 값이 크면, 다음은 값이 작아지는 경향에 대한 이야기이다. 마치 용수철 처럼 평균의 길이를 유지하려는 성향이다.
시점 t에서 예측값은 이전 값에서 a를 곱하고 c를 더한뒤, white noise에 해당하는 에러인 e(t)를 붙인다. 평균이 aX(t-1)+c이고 분산이 u인 정규분포에서 도출된 임의의 값이다.
하지만, 시간의 흐름에 따라 Random variable의 평균값(규모의 추세)가 크거나 작아질 수 있다. 따라서,
MA모델은 특정 규모의 집단의 평균이 이동해서 움직인다는 것이다.
가장 간단한 MA(1)모델이다. AR과 크게 다른 점은 이전의 변수가 아니니 에러값에 따라 다음 값이 예측된다는 것이다 .
X(t-1)이 아닌 e(t-1) 이전에서 발생한 실 값에 대한 오류값이 다음 값에 영향을 준다는 것이다.
즉, AR과 MA는 모형은 비슷하지만, 대상을 실제 값이나 오류의 값이냐에 따라 모델이 분리된다. 따라서 데이터가 평균치로 움직이로는 경향인지 혹은 전체 추세가 움직이는지에 따라 모델이 달라지는데, 이는 시계열 분야에 따라 다르게 적용된다.
ARMA 모델은 두 모델을 혼합하였다. -> ARMA(P,Q)
ARIMA은 Autoregressive Integrated Moving Average로 ARMA가 과거 데이터만 반영했던 것에 비해 과거의 추세를 고려한다. Correlation(데이터 간의 선형관계)이외에 Cointegraion(추세관계)을 고려한 모델이다.
ARIMA 모형은 비정상 시계열 모형으로 AR모형과 MA모형을 합쳐 ARIMA모형으로 정상화할 수 있다.
ARIMA(p,d,q)모형은 차수 p,d,q의 값에 따라 다른이름으로 불린다.
: p는 AR모형과 관련이 있음
: q는 MA모형과 관련이 있음
예1) d=0이면, ARMA(p,q)모형이라 부르고 이 모형은 정상성을 만족한다.
예2) p=0이면, IMA(d,q)모형이라 부르고 d번 차분하면 MA(q)모형을 따르게 된다.
예3) q=0이면, ARI(p,d)모형이라 부르며, d번 차분한 시계열이 AR(p)모형을 따르게 된다.
https://yamalab.tistory.com/112
다음 시간에는 ARIMA모델을 가지고 데이터를 임의로 형성한 후, 여러 딥러닝 모델을 적용하여 정확도를 비교해보겠다.