티스토리 뷰
목표
변수 변환의 정의 및 특징을 설명할 수 있다.
구간화를 지정 길이 기반 방안과 분포 기반 방안으로 구분할 수 있다.
정규화를 최대-최소 정규화와 Z-점수 정규화 방안으로 구분할 수 있다.
데이터 변환(Transformation)
연속형, 범주형 등 원 데이터의 값을 다른 형태로 바꾸는 과정
분석 방법론에 대한 적용
여러 형태로 표현된 데이터 값을 다양한 분석 방법론에 적용하기 위해 원시 형태에서 다른 형식으로 바꾸는 과정
주어진 목적 기반의 올바른 결과 획득을 위하여
원시 데이터를 데이터 분석에 용이하도록 형태 변환
변환 목적 및 특징
빠른 특성 파악
- 데이터의 특성을 빠르게 파악 가능
- 파생 변수 생성 및 단순화를 통한 결과 리포팅 등 활용
연령, 흡연량, 연령대를
연령대와 평균 흡령량으로(연령대 별로 단순화)
분석 알고리즘 적용
- 변수 간 범위가 다들 경우 알고리즘 적용 시 영향력의 차이가 발생한다.
- 올바른 학습을 위해 다른 범위를 지닌 변수들의 변환 필요
기기 ID, 온도, 전압
온도의 평균, 최소값의 범위가 전압의 평균, 최소값의 범위가 다르면
변수 간 각기 다른 범위를 가진다.
즉, 정규화를 해줘야 한다.
구간화
연속형 데이터를 구간으로 구별하여 범주화 형태 변환
지정 길이 기반 구간 정의 - 사용자 기준으로 데이터 범위의 간격을 구분하여 관측치를 나누는 방안
연령을 연령대로 구분
분포 기반 구간 정의(데이터 관점) - 관측치가 각 구간 내 동일한 개수로 구분되도록 나누는 방안
12개면 3개씩 4개로.
22살, 25살, 28살
이런식으로 촘촘하게 나눠질 수 있다.
정규화(Normalization)
데이터 탐색 및 기계학습 적용을 위한 연속형 변수 변환
최대-최소 정규화
- 데이터 구간을 0에서 1사이로 변환
- 특정 데이터의 위치 파악
- x = (x-min(x)) / ( max(x) - min(x) )
단점 : 이상치를 1로 나타내게 된다.
Z-점수 정규화
- 0으 중심으로 양쪽으로 데이터 분포시킴
- 특정 데이터가 평균과 얼마나 떨어져 있는지 파악
- 0~1로 나타나지는 않는다.
- x = (x - mean) / (표준편차)
단점 : 최대가 어디인지 모른다.
이미지 색상 범위를 맞춰야 하는 경우에는 최대-최소 정규화
주성분 분석이라는 PCA를 쓸 때는 Z-점수 정규화
상황에 따라 다르고, 정규화를 적용하고 하지 않고가 차이가 많이 난다는 게 중요하다.