보호되어 있는 글입니다.
보호되어 있는 글입니다.
보호되어 있는 글입니다.
지난 시간 그저 missing value를 채워주는 걸로는 개선이 이루어지지 않았다. 그렇다면 일단 다른 사람의 노트북을 참고해보면 어떨까? 어떤 의견에서는 변수들이 연관성이 있다는 것도 있었다. 만약 그렇다면 문제가 더 복잡해진다. 그래서 discussion에서 missing value를 처리할 방법을 찾다가, 흥미로운 노트북을 보게 되었다. Categorical Feature Encoding Challenge II Explore and run machine learning code with Kaggle Notebooks | Using data from Categorical Feature Encoding Challenge II www.kaggle.com 이 노트북의 요지는 다음과 같다. (test.is..
지난시간에 이어서 피처 엔지니어링 + 베이스라인 모델 생성이다. 데이터 합치기와 데이터 나누기는 지난 챌린지를 참고하면 되고, 이번에는 먼저 결과를 봐보자. from sklearn.preprocessing import OneHotEncoder encoder = OneHotEncoder() # 원-핫 인코더 생성 all_data_encoded = encoder.fit_transform(all_data) # 원-핫 인코딩 적용 all_data_encoded X_train.shape (298042, 5700) from sklearn.metrics import roc_auc_score # ROC AUC 점수 계산 함수 # 검증 데이터 ROC AUC roc_auc = roc_auc_score(y_valid, y_..
보호되어 있는 글입니다.