목표 시계열 데이터의 성분을 설명할 수 있다. 시계열 데이터의 특성에 맞는 통계 분석을 할 수 있다. 시계열 분석 절차를 순서대로 설명할 수 있다. 시계열 데이터 순차적인 시간의 흐름에 따라 기록된 데이터를 의미 Y=T+S+C+R 또는 Y = T * S * C * R 추세(Trend) = 시간의 흐름에 따라 점진적이고 지속적인 변화(지속적인 증가) 계절성(Seasonality) = 특정 주기에 따라 일정한 패턴을 갖는 변화(여름에는 많고, 겨울에는 적고) 싸이클(Cycle) = 경제 또는 사회적 요인에 의한 변화(예 : 경기 변동)이며, 일정 주기가 없고 장기적인 변화 잔차(Residuals) = 설명할 수 없는 변화(추세, 계절성, 싸이클로 설명할 수 없는 부분을 담당한다) 책에 따라서 T+S+R로만 ..
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 이 글을 쓰고 있는 2024년 2월 13일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 피처 엔지니어링을 진행한다. 분석 결과 정리 일단 여태까지의 분석 요소들을 종합해본다. 분석 결과1 : id의 종속관계에 대한 가설 수립 및 일치화 따라서 id를 통한 그룹화로 타깃값 분포 보기 시간에 따라 나열되어 있으므로, 시계열 데이터. 그리고 vote에 대한 인사이트 수립 결측치 없음 위의 결과 1..
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 2024년 2월 12일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 EDA의 두 번째 시간이다. EDA(탐색적 데이터 분석) https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/discussion/467021 지난시간의 결론은 label은 빼고, sub_id와 seconds의 값들을 합쳐주는 것. 조금 더..
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 2024년 2월 12일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 오늘 시간에는 EDA를 진행한다 EDA(탐색적 데이터 분석) 지난 시간의 train 데이터에 대한 분석 결과는 다음과 같다. 분석 결과 : id의 종속관계에 대한 가설 수립 및 일치화 따라서 id를 통한 그룹화로 타깃값 분포 보기 시간에 따라 나열되어 있으므로, 시계열 데이터. 그리고 vote에 대한 인사이트 수립 결측치 없음 우선 종속변..
https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification/overview 2024년 2월 12일 현재, 캐글에서 진행하고 있는 컴피티션이다. 필자는 본 경진대회를 진행하면서, 실제로 배운 데이터 분석 요소들을 적용해보려고 한다. 글로 써질 것들은 모델을 학습하고, 만들기 까지의 과정이다. 목적 명확화 일단 첫 번째로 경진대회를 진행하려면 목적과 평기자표를 보아야 한다. 해당 경진대회의 미션은 detect and classify seizures and other types of harmful brain activity. 즉, 발작과 다른 해로운 뇌 활동을 감지하고 분류하는 것이다. 당연하게도 여러개를 분류하는 다중 분류 모델..
목표 회귀분석의 정의 및 기본 가정을 설명할 수 있다. 다중회귀분석을 활용하여 독립변수가 여러 개인 회귀모형을 분석할 수 있다. 단순회귀분석 회귀분석은 인과관계 분석에 특화 한 개의 종속변수(Y)와 한 개의 독립변수(X) 사이의 관계를 분석하는 통계 기법 Y와 X간의 관계를 일차식(선형)에 대입하여, X의 변화에 따라 Y가 얼마나 변하는지를 예측할 때 사용 y=ax+b 라는 식을 통해서 x의 변화가 y에 얼마나 영향을 미치는지 회귀분석 기본 가정 가정을 따르지 않는다면 회귀분석으로 도출한 결과를 일반화시키기 힘들다. 선형성 : 독립변수(X)와 종속변수(Y)는 선형관계이다. 독립성 : 종속변수 Y는 서로 독립이어야 한다(한 관측 값이 다른 관측치에 의해 영향을 받으면 안됨) 등분산성 : 독립변수 X의 값에..