티스토리 뷰
반응형
피처 요약표 6장 적용
def resumetable(df):
print(f'데이터 세트 형상: {df.shape}')
summary = pd.DataFrame(df.dtypes, columns=['데이터 타입'])
summary = summary.reset_index()
summary = summary.rename(columns={'index': '피처'})
summary['결측값 개수'] = df.isnull().sum().values
summary['고윳값 개수'] = df.nunique().values
summary['첫 번째 값'] = df.loc[0].values
summary['두 번째 값'] = df.loc[1].values
summary['세 번째 값'] = df.loc[2].values
return summary
resumetable(train)
해당 코드를 6장에 맞게 만들려면?
아마도 처음 코드가 들어 있는 것에서 피처 엔지니어링만 한 데이터셋에 적용해야 할 것이다.
따라서 날짜 피처 엔지니어링 아래에 삽입
데이터 세트 형상: (10886, 20)
깔끔한 데이터 값이 나온다.
아래는 완전히 피처 엔지니어링이 되고 난 후, 요약표를 적용한 표
그때 해주었던 것처럼 영향을 주는 값만 나오는 걸 알 수 있다.
로그변환은 각자 들어가므로 상관 없다.
반응형