https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 이 글을 쓰고 있는 2024년 2월 19일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 베이스라인 모델링을 진행한다. Group K-Fold 적용하기 CatBoost를 학습하기 위해서 기본적인 CatBoost 환경을 사용한다. 이때 K_Fold를 같이 사용하기 위해서, TARGET으로 각 타겟을 라벨링 인코딩을 해줄 것이다. 또한 GPU로 지정해줌으로서, 더 빠른 학습 속도를 가지게 만든다...
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 이 글을 쓰고 있는 2024년 2월 18일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 베이스라인 모델링을 위한 추가적인 피처 엔지니어링을 진행한다. 베이스라인 모델링 개요 베이스라인 모델링은 본격적으로 성능 개선을 하기 전에, 어떤 모델을 싱글 모델로 가장 좋은 모델을 활용할 지, 그리고 그 단계에서 어떻게 모델링을 해 나갈지 고민하는 과정이다. 앙상블 기법은 당연히 해야 하는 과정이지만,..
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 이 글을 쓰고 있는 2024년 2월 13일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 피처 엔지니어링을 진행한다. 분석 결과 정리 일단 여태까지의 분석 요소들을 종합해본다. 분석 결과1 : id의 종속관계에 대한 가설 수립 및 일치화 따라서 id를 통한 그룹화로 타깃값 분포 보기 시간에 따라 나열되어 있으므로, 시계열 데이터. 그리고 vote에 대한 인사이트 수립 결측치 없음 위의 결과 1..
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 2024년 2월 12일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 EDA의 두 번째 시간이다. EDA(탐색적 데이터 분석) https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/discussion/467021 지난시간의 결론은 label은 빼고, sub_id와 seconds의 값들을 합쳐주는 것. 조금 더..
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 2024년 2월 12일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 EDA를 진행한다 EDA(탐색적 데이터 분석) 지난 시간의 train 데이터에 대한 분석 결과는 다음과 같다. 분석 결과 : id의 종속관계에 대한 가설 수립 및 일치화 따라서 id를 통한 그룹화로 타깃값 분포 보기 시간에 따라 나열되어 있으므로, 시계열 데이터. 그리고 vote에 대한 인사이트 수립 결측치 없음 우선 종속변..
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 2024년 2월 12일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 목적 명확화 일단 첫 번째로 경진대회를 진행하려면 목적과 평기자표를 보아야 한다. 해당 경진대회의 미션은 detect and classify seizures and other types of harmful brain activity. 즉, 발작과 다른 해로운 뇌 활동을 감지하고 분류하는 것이다. 당연하게도 여러개를 분류하는 다중 분류 모델..