저해상도 이미지 15826장이 주어진다. Vision | 분류 | Macro F1 score로 평가한다. 이번에는 pytorch lighiting을 사용했다.가지고 있는 GPU가 없다.그렇기에 colab환경과 kaggle의 환경에서 대부분을 진행했다. 기본 모델해당 경진대회는 imagenet이나 cifar로 된 사전훈련 모델을 전이학습해서 사용할 수 있었다.따라서 swinv2로 기본 모델을 진행했다. 이미지에 대한 실험1) 업스케일링 이미지를 사용한 모델을 구축했을 때 성능이 하락했다.2) Lanczos를 사용해서 보간했을 때 성능이 향상했다.3) Augmentation에서 RandomHorizontalFlip이나 Vertical은 성능이 하락했다.4) 최종적으로는 업스케일링 이미지와 작은 이미지를 사용..

[주제]개인 특성 데이터를 활용하여 개인 소득 수준을 예측하는 AI 모델 개발정형 회귀 1. 평가평가산식 : RMSEPublic Score: 전체 테스트 데이터 중 30%Private Score: 전체 테스트 데이터 중 70% 2. AutoML 패키지모든 AutoML 패키지 사용 불가능3. 유의 사항1일 최대 제출 횟수: 3회사용 가능 언어: Python, R그간의 5만 달러 정도로 Classification하여 이진분류하는 소득 예측 모델과 달리, 정형 회귀 문제로서 접근할 수 있는 문제라 시도해보기로 마음먹었다. 최종 Public Score는 69위로, 제출한 전체 773팀 중에서 상위 8.9%에 들었다. First Step - EDA피처 요약표를 살펴 보았을 때, 대부분의 피처가 명목형으로 되어 있..

데이터를 불러오고, stratify를 통해 분리한다. from sklearn.model_selection import train_test_split # 훈련 데이터, 검증 데이터 분리 train, valid = train_test_split(train, test_size=0.1, stratify=train[['healthy', 'multiple_diseases', 'rust', 'scab']], random_state=42) from PIL import Image from torch.utils.data import Dataset import numpy as np import os class CustomImageDataset(Dataset): def __init__(self, dataframe, image..

https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/discussion/469666 성능 개선을 위한 모델을 모색하던 중, 흥미로운 디스커션을 보게 되어 기록하게 되었다. EfficientNet에서 learning rate와 DATA, AGUMENTATION을 바꿔가며 실험한 데이터를 보게 되었다. 주요 기술 개선 아이디어 요약 데이터 전처리 및 증강: 스펙트로그램 중간 10초 강조: 전문가들이 주목하는 영역이므로 모델이 집중하도록 유도. 데이터 증강: MixUp, 이미지 반전, 회전 등 다양한 기법 활용. 외계값 및 노이 제거: UMAP 시각화를 통해 외계값 확인 및 제거, 스펙트로그램 및 EEG 데이터의 NaN 값..

https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 이 글을 쓰고 있는 2024년 2월 19일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 베이스라인 모델링을 진행한다. Group K-Fold 적용하기 CatBoost를 학습하기 위해서 기본적인 CatBoost 환경을 사용한다. 이때 K_Fold를 같이 사용하기 위해서, TARGET으로 각 타겟을 라벨링 인코딩을 해줄 것이다. 또한 GPU로 지정해줌으로서, 더 빠른 학습 속도를 가지게 만든다...
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 이 글을 쓰고 있는 2024년 2월 18일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 베이스라인 모델링을 위한 추가적인 피처 엔지니어링을 진행한다. 베이스라인 모델링 개요 베이스라인 모델링은 본격적으로 성능 개선을 하기 전에, 어떤 모델을 싱글 모델로 가장 좋은 모델을 활용할 지, 그리고 그 단계에서 어떻게 모델링을 해 나갈지 고민하는 과정이다. 앙상블 기법은 당연히 해야 하는 과정이지만,..