https://www.youtube.com/watch?v=m2NfFJEvssY&list=PLVsNizTWUw7FCS83JhC1vflK8OcLRG0Hl&index=20 초심으로 돌아가서 다시 정리하는 개념입니다. 이미 알고 있어 스킵하는 부분도 있으니, 직접 보시는 걸 추천드립니다. 하드 디스크 자기 디스크의 일종 자기적인 방식으로 데이터 저장 플래터가 여러 겹으로 이루어져 있다. 양면을 일반적으로 모두 사용한다. 스핀들이라는 것이 플래터를 굴려준다. 단위는 RPM 서버실에 하드디스크가 많다. 플래터를 읽고 쓰는 수단은 헤드 헤드는 플래터와 아주 미세하게 떠있다. 모든 플래터의 면들마다 헤드가 붙어있다. 헤드를 움직여주는 구성 요소를 디스크 암이라 부른다. 하드 디스크 저장 단위 트랙과 섹터 단위로 데이터..
목표 범주 인코딩의 정의를 설명할 수 있다. 변수의 결합과 분해를 기반으로 새로운 특징을 생성할 수 있다. 차원 축소의 목적에 따라 주성분 분석과 군집 분석을 통해 새로운 특징을 생성할 수 있다. 특징 생성 Feature Creation 원본 데이터의 조합/ 변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법 특징이란 원 데이터의 변환을 통해 생성되는 새로운 컬럼 변수(변수 값) 원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성 확보 비용, 연산 비용의 효율성 추구 피처 엔지니어링 원시 데이터로부터 적절하고 올바른 특징들을 만들어 내는 일련의 과정 품질 확보 - 가공을 거치지 않은 Raw 데이터 활용 기반의 모델링은 품질 확보가 어렵다. 최적화된 형태 변환 - 효과적인 Featur..
목표 변수 변환의 정의 및 특징을 설명할 수 있다. 구간화를 지정 길이 기반 방안과 분포 기반 방안으로 구분할 수 있다. 정규화를 최대-최소 정규화와 Z-점수 정규화 방안으로 구분할 수 있다. 데이터 변환(Transformation) 연속형, 범주형 등 원 데이터의 값을 다른 형태로 바꾸는 과정 분석 방법론에 대한 적용 여러 형태로 표현된 데이터 값을 다양한 분석 방법론에 적용하기 위해 원시 형태에서 다른 형식으로 바꾸는 과정 주어진 목적 기반의 올바른 결과 획득을 위하여 원시 데이터를 데이터 분석에 용이하도록 형태 변환 변환 목적 및 특징 빠른 특성 파악 데이터의 특성을 빠르게 파악 가능 파생 변수 생성 및 단순화를 통한 결과 리포팅 등 활용 연령, 흡연량, 연령대를 연령대와 평균 흡령량으로(연령대 별..
목표 이상치의 정의를 설명할 수 있다. 이상치를 판단하는 방법을 설명할 수 있다. 파이썬을 활용하여 이상치를 처리할 수 있다. 이상치(Outlier) 관측된 데이터 내 전체적 패턴에서 아주 작게, 혹은 아주 크게 벗어난 값 데이터 분석 결과 및 의사 결정에 왜곡을 일으킬 수 있다. 이상치의 유형 오류 데이터 - 센서나 시스템 오류로 잘못된 값을 수집한 경우 실제 데이터 - 실제 데이터가 맞지만, 극단적인 관측으로 인해 일반적인 관측 범위를 벗어난 경우(허리케인, 폭설 등) 평균 연봉에 포함되는 마이클 조던 - 이상치 현업에서는 잘못된 데이터인지 아닌지 구분하기 쉽지 않다. 그래서 데이터가 보여주는 현상에 대해서 의문을 가지고 전문가와 의논해봐야 한다. 이상치 처리 프로세스 통계적 방안 - 데이터 관점의 ..
목표 결측치의 정의 설명 결측치의 발생 원인 설명 파이썬을 활용하여 결측치 처리 결측치 데이터가 수집되지 않거나 누락되어 정보가 존재하지 않는 값. 결측치가 포함된 데이터는 모델 학습이 불가능(결측치 자체를 하나의 카테고리로 보는 경우 제외) 되도록 사전에 반드시 결측치 처리 결측치 발생 원인 대부분 수집 및 관리 과정에서 결측치가 발생한다. 미수집 - 미 입력된 데이터 시스템 오류 - 오류에 의해 누락(장치, 센서 오류) 신규 항목 - 새롭게 수집 및 저장하는 항목의 추가 결측치 처리 방안 제거하거나 대체하는 방법이 있다. 제거 : 가장 쉽지만 데이터 손실 대체: 최대한 많은 데이터를 활용하지만 편향 발생 *필자 추가 : 결측치 자체를 하나의 카테고리로 보는 방법도 있다. 결측치가 다른 값들에 비해 너..
보호되어 있는 글입니다.