티스토리 뷰

반응형

목표

 

시계열 자료의 특징을 이해하고 설명할 수 있다.

Pandas를 이용하여 시계열 데이터를 조작할 수 있다.

Pandas의 dataframe이 제공하는 시각화 메소드를 이용하여 시계열 데이터를 시각화할 수 있다.

 

시계열 데이터란?

 

순차적인 시간의 흐름으로 기록된 관측치의 집합

시계열 데이터는 고정된 시간 구간으로 나타나야 한다.

(일별 데이터는 일별 데이터로만, 월별 데이터는 월별 데이터로만 구성되어야 한다)

 

시계열의 특징

1. 시간의 순차적인 흐름

2. 고정된 시간 구간의 관측치

> 월별 데이터로 관측되었다가 시간대별로 바뀌면 안된다.

즉, 하나의 카테고리로 완벽하게 분류되어야 한다.

 

Datetimeindex 자료형을 사용한다

 

년,월, 일 -> 문자열 변환

Datetimeindex = pd.to_datetime() 사용

 

이때 인덱스는 날짜가 된다.

인덱스가 왜 날짜로 되어야 하는가? > 레코드의 특징을 쉽게 구분할 수 있기 때문

 

또 대부분의 시계열 인덱스 라이브러리는 시계열 인덱스를 필요로 한다.

 

Resample

일별 -> 월별

월별 -> 일별 등과 같이 시간 간격 재조정 가능

 

Down-sampling : 시간 구간을 크게 만들어 데이터 양이 감소하는 경우

1년치 일별을 월별로 365개 -> 12개

 

이렇게 변하려면, groupby 메소드처럼 각 월의 대표값을 구해야 한다.

(평균값, 합산 값 등)

 

Up-sampling : 월별 데이터를 일별 데이터

이때는 반대로 존재하지 않는 데이터를 만들어야 한다.

이때 결측치 보간은 Forward Filling, Backward Filling 방법이 있다.

 

Forward filling은 각 월 첫번째 달 기준으로 보간(월별 데이터가 01월 4.6이면 1월 31일까지 전부 4.6)

Backward Filling은 각 월 마지막 기준으로 보간

> (3월 데이터가 8.7, 4월이 16.2라고 할때,4월 1일의 데이터가 16.2였다면 3월 2일의 데이터는 16.2, 그리고 3월 1일의 데이터는 8.7이 된다.

 

시간 그래프(Time Plot)

시간 그래프는 패턴, 이상치, 시간에 따른 변화, 계절성 등의 특징을 눈으로 볼 수 있게 해준다.

 

>시간의 흐름에 대한 변화가 라인 그래프로 나타난다.

>특정 계절에 올라가는 패턴을 보고 계정성을 파악할 수 있다.

 

pandas.DataFrame.plot()으로 사용 가능

반응형