
주제 미세먼지 농도 예측 머신러닝 모델링 목표 탐색적 데이터 분석 복습 데이터 전처리 과정 복습 머신러닝 모델링 과정 복습 머신러닝 모델 평가 프로젝트 내 역할 개인 프로젝트 다만, ppt에서는 피처 요약표와 모델링 지표 등을 담당 1. 데이터 분석 1.1 구성 air_2022, air_2023 미세먼지 및 오염물질(SO2, CO, O3, NO2, PM25, PM10) 정보 weather_2022, weather_2023 날씨 정보(기온, 강수량, 풍속, 풍향, 습도, 시정 등) 1.2 분석 가장 먼저 피처 요약표 분석 명목형에서 고유값이 1인 것들은 타겟 예측력이 없으므로 제거할 생각을 하고 들어간다. 연속형이어도 결측값 개수가 5000개보다 많고, 의미 없는 변수(QC값)이라 생각되면 drop해주었다..

이론 강의를 토대로 실제 사례에 적용해보는 시간 스스로 문제를 해결하는 역량을 기르는 시간 미니프로젝트는 에이블스쿨의 A to Z라고 할 수 있겠다. 실제로 배운 것을 적용해보고 토의하는 시간. 여러 차례 미니프로젝트의 최종 목표는 결국 솔루션을 제시할 정도의 역량을 기르고, 이후에 빅프로젝트를 할 기반을 다지는 것이다. 1차적으로 서울시 생활정보 기반 대중교통 수요 분석 (미션 : 버스 노선 추가가 필요한 서울 시 내 자치구 선정) 2차는 따릉이 수요 예측 데이터였다.(날씨 데이터 분석 및 인사이트 도출) 1. 데이터 구조 이해 2. 데이터 분포 확인 3. 비즈니스 관점 가설 수립 및 검증 4. 관계분석 시각화 및 수치화 가설 수립, 단변량/이변량 분석, 검증, 인사이트 도출 시각화 부분에서 어떻게 하..

https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/discussion/469666 성능 개선을 위한 모델을 모색하던 중, 흥미로운 디스커션을 보게 되어 기록하게 되었다. EfficientNet에서 learning rate와 DATA, AGUMENTATION을 바꿔가며 실험한 데이터를 보게 되었다. 주요 기술 개선 아이디어 요약 데이터 전처리 및 증강: 스펙트로그램 중간 10초 강조: 전문가들이 주목하는 영역이므로 모델이 집중하도록 유도. 데이터 증강: MixUp, 이미지 반전, 회전 등 다양한 기법 활용. 외계값 및 노이 제거: UMAP 시각화를 통해 외계값 확인 및 제거, 스펙트로그램 및 EEG 데이터의 NaN 값..

https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 이 글을 쓰고 있는 2024년 2월 19일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 베이스라인 모델링을 진행한다. Group K-Fold 적용하기 CatBoost를 학습하기 위해서 기본적인 CatBoost 환경을 사용한다. 이때 K_Fold를 같이 사용하기 위해서, TARGET으로 각 타겟을 라벨링 인코딩을 해줄 것이다. 또한 GPU로 지정해줌으로서, 더 빠른 학습 속도를 가지게 만든다...
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 이 글을 쓰고 있는 2024년 2월 18일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 베이스라인 모델링을 위한 추가적인 피처 엔지니어링을 진행한다. 베이스라인 모델링 개요 베이스라인 모델링은 본격적으로 성능 개선을 하기 전에, 어떤 모델을 싱글 모델로 가장 좋은 모델을 활용할 지, 그리고 그 단계에서 어떻게 모델링을 해 나갈지 고민하는 과정이다. 앙상블 기법은 당연히 해야 하는 과정이지만,..

https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 이 글을 쓰고 있는 2024년 2월 13일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 피처 엔지니어링을 진행한다. 분석 결과 정리 일단 여태까지의 분석 요소들을 종합해본다. 분석 결과1 : id의 종속관계에 대한 가설 수립 및 일치화 따라서 id를 통한 그룹화로 타깃값 분포 보기 시간에 따라 나열되어 있으므로, 시계열 데이터. 그리고 vote에 대한 인사이트 수립 결측치 없음 위의 결과 1..