주제 장애인 콜택시 대기시간 예측(시계열 데이터) 장애인 콜택시 관련 데이터와 날씨 데이터가 주어진다. 문제 정의 전 날 콜택시 운행이 종료되었을 때, 다음 날 대기시간을 예측 하루 후 미래의 날씨 데이터 예보를 가지고 있다고 가정하고, 하루 후의 실제 대기시간을 예측 목표 데이터 전처리 과정 실습 탐색적 데이터 분석 실습 머신러닝 모델링 과정 실습 모델 성능 향상을 위한 추가적인 피처 엔지니어링/튜닝 실습 프로젝트 내 역할 pycaret을 이용한 Best model 도출 피처 엔지니어링으로 주말 여부에 대한 상관계수 도출 토론 후에 팀원이 주말 여부에 대해서 주말 하루 전이라는 추가적인 피처 생성 모델 튜닝 기본적인 모델링 및 시계열 데이터에서의 Data leakage에 대해 팀원들에게 설명 1. 데이..
주제 미세먼지 농도 예측 머신러닝 모델링 목표 탐색적 데이터 분석 복습 데이터 전처리 과정 복습 머신러닝 모델링 과정 복습 머신러닝 모델 평가 프로젝트 내 역할 개인 프로젝트 다만, ppt에서는 피처 요약표와 모델링 지표 등을 담당 1. 데이터 분석 1.1 구성 air_2022, air_2023 미세먼지 및 오염물질(SO2, CO, O3, NO2, PM25, PM10) 정보 weather_2022, weather_2023 날씨 정보(기온, 강수량, 풍속, 풍향, 습도, 시정 등) 1.2 분석 가장 먼저 피처 요약표 분석 명목형에서 고유값이 1인 것들은 타겟 예측력이 없으므로 제거할 생각을 하고 들어간다. 연속형이어도 결측값 개수가 5000개보다 많고, 의미 없는 변수(QC값)이라 생각되면 drop해주었다..
이론 강의를 토대로 실제 사례에 적용해보는 시간 스스로 문제를 해결하는 역량을 기르는 시간 미니프로젝트는 에이블스쿨의 A to Z라고 할 수 있겠다. 실제로 배운 것을 적용해보고 토의하는 시간. 여러 차례 미니프로젝트의 최종 목표는 결국 솔루션을 제시할 정도의 역량을 기르고, 이후에 빅프로젝트를 할 기반을 다지는 것이다. 1차적으로 서울시 생활정보 기반 대중교통 수요 분석 (미션 : 버스 노선 추가가 필요한 서울 시 내 자치구 선정) 2차는 따릉이 수요 예측 데이터였다.(날씨 데이터 분석 및 인사이트 도출) 1. 데이터 구조 이해 2. 데이터 분포 확인 3. 비즈니스 관점 가설 수립 및 검증 4. 관계분석 시각화 및 수치화 가설 수립, 단변량/이변량 분석, 검증, 인사이트 도출 시각화 부분에서 어떻게 하..