보호되어 있는 글입니다.
경진대회 이해 -> 탐색적 데이터 분석 -> 베이스라인 모델 제작 -> 성능 개선 순서 경진대회 이해 - 대회의 취지와 문제 유형 파악 및 평가지표 확인 탐색적 데이터 분석 - 시각화를 포함한 각종 기법을 동원해 데이터를 부넉하여 피쳐 엔지니어링과 모델링 전략 수립 베이스라인 모델 - 기본 모델 제작. 유사한 문제를 풀 때 업계에서 흔히 쓰는 모델이나 직관적으로 떠오르는 모델 선택 성능 개선 - 베이스 라인 모델보다 더 나은 성능을 목표로 각종 최적화 진행 타깃값이 정규분포에 가까울수록 회귀 모델의 성능이 좋아진다. 로그변환하면 정규분포에 가까워지고, 결과값을 지수변환하면 원래 타깃값 형태로 복원된다(타깃값 변환). 훈련 데이터에서 이상치를 제거하면 일반화 성능이 좋아진다.(이상치 제거) 기존 피처를 분..
본격적인 모델 훈련 선형 회귀 모델을 임포트하여 모델을 생성 및 훈련 from sklearn.linear_model import LinearRegression linear_reg_model = LinearRegression() log_y = np.log(y) # 타깃값 로그변환 linear_reg_model.fit(X_train, log_y) # 모델 훈련 선형 회귀 식은, 독립변수 x와 종속변수 y가 있을 때, y=ax+b의 형태이고, 여기서 a와 b의 값을 구하려는 것이다. 훈련 : 피처(독립변수)와 타깃값(종속변수)가 주어졌을 때 최적의 가중치 (a 와 b)를 찾는 과정 예측 : 최적의 가중치를 아는 상태(훈련된 모델)에서 새로운 독립변수(x)가 주어졌을 때 타깃값을 추정하는 과정 여기서 탐색적 데..
베이스라인 모델 전략 프로세스 데이터 불러오기 -> (기본적인) 피처 엔지니어링 -> 평가지표 계산 함수 작성 -> 모델 훈련 -> 성능 검증 -> 제출 베이스라인 모델에서 출발해 성능을 점차 향상시키는 방향으로 모델링 공유한 모델을 사용해도 되고, 직접 자신만의 모델을 만들어도 된다. 피처 엔지니어링 피처 엔지니어링 전에 두 데이터를 합쳤다가, 다 끝나면 도로 나눠준다. 훈련 데이터와 테스트 데이터 합치기-> 타입 변경이나 삭제, 추가 -> 데이터 나누기 순서 이상치 제거 weather가 4인 데이터는 이상치다. # 훈련 데이터에서 weather가 4가 아닌 데이터만 추출 train = train[train['weather'] != 4] 데이터 합치기 훈련 데이터와 테스트 데이터에 같은 피처 엔지니어링..
회귀선을 포함한 산점도 그래프 수치형 데이터인 온도, 체감 온도, 풍속, 습도별 대여 수량을 그린다. 회귀선을 포함한 산점도 그래프는 수치형 데이터 간 상관관계를 파악하는 데 사용 # 스텝 1 : m행 n열 Figure 준비 mpl.rc('font', size=15) figure, axes = plt.subplots(nrows=2, ncols=2) # 2행 2열 plt.tight_layout() figure.set_size_inches(7, 6) # 스텝 2 : 서브플롯 할당 # 온도, 체감 온도, 풍속, 습도 별 대여 수량 산점도 그래프 sns.regplot(x='temp', y='count', data=train, ax=axes[0, 0], scatter_kws={'alpha': 0.2}, line_..
*머신러닝 대회 기준 1. pandas로 데이터 둘러보기 import numpy as np import pandas as pd # 판다스 임포트 # 데이터 경로 data_path = '/kaggle/input/bike-sharing-demand/' train = pd.read_csv(data_path + 'train.csv') # 훈련 데이터 test = pd.read_csv(data_path + 'test.csv') # 테스트 데이터 submission = pd.read_csv(data_path + 'sampleSubmission.csv') # 제출 샘플 데이터 train.shape, test.shape train.head() test.head() submission.head() train.info()..