보호되어 있는 글입니다.
보호되어 있는 글입니다.
내가 되고 싶은 것, 그리고 하고 싶은 것. 이건 나의 첫 블로그 포스팅이다. 나는 항상 첫번째라고 하면 뭔가 의미 있는 걸 바라는 마음이 있다. 그렇기에 어쩌면 지금과는 생각이 바뀌었을 미래의 나에게 이 기록을 남긴다. 내가 좋아하 sikaro.tistory.com 2023년 1월 12일에 해당 블로그는 처음으로 만들어졌다. 뭐, 그 전에도 있긴 했지만 확실하게 개발 블로그를 시작하게 된 건 저 글을 쓰고 나서니 1년에서 조금 지난 셈이다. 그렇기에 이 글은 1년이 지난 현재에 쓰는 과거의 나에게 답신인 셈이다. 아마 1년 후의 나에게도 답신이 될 것이다. 1년 동안 뭘 공부했냐를 돌아보면, 확실히 뭔가 많이 하긴 한 것 같다. 그동안 책을 많이 읽었다. 세이노의 가르침, 부의 추월차선, 도파미네이션,..
경진대회 이해 -> 탐색적 데이터 분석 -> 베이스라인 모델 제작 -> 성능 개선 순서 경진대회 이해 - 대회의 취지와 문제 유형 파악 및 평가지표 확인 탐색적 데이터 분석 - 시각화를 포함한 각종 기법을 동원해 데이터를 부넉하여 피쳐 엔지니어링과 모델링 전략 수립 베이스라인 모델 - 기본 모델 제작. 유사한 문제를 풀 때 업계에서 흔히 쓰는 모델이나 직관적으로 떠오르는 모델 선택 성능 개선 - 베이스 라인 모델보다 더 나은 성능을 목표로 각종 최적화 진행 타깃값이 정규분포에 가까울수록 회귀 모델의 성능이 좋아진다. 로그변환하면 정규분포에 가까워지고, 결과값을 지수변환하면 원래 타깃값 형태로 복원된다(타깃값 변환). 훈련 데이터에서 이상치를 제거하면 일반화 성능이 좋아진다.(이상치 제거) 기존 피처를 분..
랜덤포레스트는 훈련 데이터를 랜덤하게 샘플링한 모델 n개를 각각 훈련하여 결과를 평균하는 방법 여기도 결은 똑같고, 하이퍼 파라미터 최적화부터 들어간다. from sklearn.ensemble import RandomForestRegressor # 모델 생성 randomforest_model = RandomForestRegressor() # 그리드서치 객체 생성 rf_params = {'random_state':[42], 'n_estimators':[100, 120, 140]} # ① gridsearch_random_forest_model = GridSearchCV(estimator=randomforest_model, param_grid=rf_params, scoring=rmsle_scorer, cv=5..
성능 개선 1번 : 릿지 회귀 모델 L2 규제를 적용한 선형 회귀 모델 릿지 회귀 모델은 성능이 좋은 편은 아니다. 캐글러도 잘 안쓴다. 선형 회귀 모델모다 과대적합이 적은 모델이다. 하이퍼파라미터 최적화(모델 훈련) 모델 훈련 단계에서 그리드 서치 기법 사용 교차 검증 평가점수는 보통 에러 값이기 때문에 낮을수록 좋다. alpha는 릿지 모델의 파라미터 그리드 서치를 이용하지 않으면 alpha에 각각 값을 전달하여 교차 검증으로 모델 성능을 각가 측정해야 한다. 릿지 모델 생성 https://www.kaggle.com/werooring/ch6-modeling from sklearn.linear_model import Ridge from sklearn.model_selection import GridSe..