티스토리 뷰

프로젝트/kaggle & Dacon

숙제 (1)

sikaro 2024. 1. 22. 13:40
반응형

피처 요약표 6장 적용

def resumetable(df):
    print(f'데이터 세트 형상: {df.shape}')
    summary = pd.DataFrame(df.dtypes, columns=['데이터 타입'])
    summary = summary.reset_index()
    summary = summary.rename(columns={'index': '피처'})
    summary['결측값 개수'] = df.isnull().sum().values
    summary['고윳값 개수'] = df.nunique().values
    summary['첫 번째 값'] = df.loc[0].values
    summary['두 번째 값'] = df.loc[1].values
    summary['세 번째 값'] = df.loc[2].values
    
    return summary

resumetable(train)

 

해당 코드를 6장에 맞게 만들려면?

아마도 처음 코드가 들어 있는 것에서 피처 엔지니어링만 한 데이터셋에 적용해야 할 것이다.

 

따라서 날짜 피처 엔지니어링 아래에 삽입

데이터 세트 형상: (10886, 20)
 

 

깔끔한 데이터 값이 나온다.

 

아래는 완전히 피처 엔지니어링이 되고 난 후, 요약표를 적용한 표

 

그때 해주었던 것처럼 영향을 주는 값만 나오는 걸 알 수 있다.

로그변환은 각자 들어가므로 상관 없다.

반응형