요즘은 완전히 GPU 전성시대이다. 돈이 있다고 해도 GPU를 살 수 있으려면 기간조차도 매우 많이 드는 게 현실이다.간단한 모델을 돌려보려고 해도, 클라우드 컴퓨팅은 세팅도 번거로울 뿐더러, 초심자가 접근하기에는 힘들다.코랩은 또 무료 버전은 시간제한이 있다. 한마디로 GPU 값은 매우 비싸다.그런데 여기, 미쳤다고 무려 16GB의 GPU를 일주일에 30시간이나 빌려주는 곳이 있다.그것도 공짜로. 그곳은 바로 데이터 사이언스인들의 성지. Kaggle이다. https://www.kaggle.com/ 필자는 이 kaggle에서 정말 다양하고 다양한 실험을 해왔다.파이썬 새로 깔아보기, 해당 도커 버전 바꿔보기, 오픈소스 버그 수정 등등.. 거의 살을 발라내고 사골까지 우려먹었다고 해도 과언이 아니다. 그..
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/discussion/469666 성능 개선을 위한 모델을 모색하던 중, 흥미로운 디스커션을 보게 되어 기록하게 되었다. EfficientNet에서 learning rate와 DATA, AGUMENTATION을 바꿔가며 실험한 데이터를 보게 되었다. 주요 기술 개선 아이디어 요약 데이터 전처리 및 증강: 스펙트로그램 중간 10초 강조: 전문가들이 주목하는 영역이므로 모델이 집중하도록 유도. 데이터 증강: MixUp, 이미지 반전, 회전 등 다양한 기법 활용. 외계값 및 노이 제거: UMAP 시각화를 통해 외계값 확인 및 제거, 스펙트로그램 및 EEG 데이터의 NaN 값..
데이터 종류 대분류 수치형 데이터 - 사칙 연산이 가능 범주형 데이터 - 범주로 나누어지는 데이터 이 중에서도 각각 연속, 이산과 순서, 명목으로 나뉜다. 수치형(연속) - 키, 몸무게 수입 수치형(이산) - 과일 개수, 책의 페이지 수 범주형(순서) - 학점, 순위(랭킹) 범주형(명목(간단하게 생각해보면 이름)) - 성별, 음식 종류, 우편 번호 이산형은 정수로 딱 떨어져 셀 수 있는 것. 범주형에서 순서형은 순위가 정해져 있다. 그에 반해 명목형은 순위가 따로 없는 데이터다. 수치형 데이터 시각화 import seaborn as sns titanic = sns.load_dataset('titanic') # 타이타닉 데이터 불러오기 titanic.head() #씨본을 사용하면 데이터가 더 정갈하다 ti..