목표 일변량 시각화를 정의할 수 있다. 파이썬을 활용하여 일변량 데이터를 시각화할 수 있다. 일변량 시각화 일변량 시각화 방안에는 어떠한 방안이 있는가? 하나의 변수로 구성된 데이터를 전체적인 관점으로 파악할 수 있는 데이터 탐색 유형 단일 변수 데이터를 다양한 그래프로 시각화하여 전체적인 관점으로 살펴보는 것이 목적이다. 일변량 비시각화와 같이 원인과 결과등을 다루지는 않는다. 시각화 vs 비시각화 시각화는 직관적 이해 추구, 정보 전달 시간 단축 데이터의 전체적인 파악을 목표로 할때 사용 비시각화는 효과적인 데이터 요약, 빠른 데이터 성격 파악 범주형 시각화 파이차트 범주형을 빈도표에서 비율로 환산해서 부채꼴의 넓이로 표현 범주형 개수가 적은 경우나 많은 경우 둘 다 쓰기 어렵다. 범주형 비율이 비슷..

목표 탐색적 데이터 분석을 정의할 수 있다. 파이썬을 활용하여 일변량 데이터를 비시각화할 수 있다. 범주형 데이터 유형, 연속형 데이터 유형별로 구분하여 학습 탐색적 데이터 분석(Exploratory Data Analysis) 데이터를 다양한 측면에서 바라보고 이해하는 과정 ->데이터가 보여주는 현상을 이해한다 통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성 파악 데이터 분석과정에서 이해 관계를 제대로 수행하는 건 모델링만큼이나 중요한 과정 단순 통계학 지표는 한계점이 있다. 사전에 발견하지 못한 패턴과 현상을 발견하여 유의미한 인사이트 도출 EDA 기본 개요 속성 파악과 관계 파악 속성 파악 분석 목적에 맞는 데이터가 준비되어 있는지, 그리고 데이터가 올바르게 적제되어 있는..

목표 특성 선택의 정의 및 목적을 설명할 수 있다. 특징 선택의 방안을 3가지로 구분할 수 있다. 특징 선택(Featrue Selection) 가장 좋은 성능을 보여줄 수 있는 데이터의 부분 집합(Subset)을 찾아내는 방법 모델 생성에 밀접한 데이터의 부분 집합을 선택하여 연산 효율성 및 모델 성능을 확보 피처 엔지니어링의 주요 토픽이면서 많이 활용되는 기법 목적 및 필요성 연산효율성 특징 생성과는 다르게 원 데이터 공간 내 유의미한 특징을 선택하는 기법 연산 효율 및 적절한 특징을 찾기 위해서 수행한다. 원본 데이터에서 가장 유용한 특징만을 선택하여 간단한 모델 구성 및 성능 확보가 목적 특징 선택 방안 필터 특징들에 대한 통계적 점수를 부여하여 순위를 매기고 선택하는 방법론 실행속도가 빠르다는 측..
https://www.youtube.com/watch?v=3G5hWM6jqPk&list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&index=4 GANs에 대해 너무 설명을 잘한 영상이라 가져왔다. 확실히 MIT 분들이 똑똑한 것 같다. 그래서 이 글은 GANs를 만드는 방법에 대한 요약이다. 머신러닝의 공식화 원래 머신 러닝은 지도학습과 비지도학습으로 나뉜다. x 데이터, y는 라벨 그런데 비지도학습이라는 다른 것도 있다. 데이터 자체는 x로 주어지나, 라벨은 없다. 생성형 모델 여기서 목표가 중요하다. 생성형 모델의 목표는, Take as input training samples from some distribution and learn a model that represent t..
목표 범주 인코딩의 정의를 설명할 수 있다. 변수의 결합과 분해를 기반으로 새로운 특징을 생성할 수 있다. 차원 축소의 목적에 따라 주성분 분석과 군집 분석을 통해 새로운 특징을 생성할 수 있다. 특징 생성 Feature Creation 원본 데이터의 조합/ 변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법 특징이란 원 데이터의 변환을 통해 생성되는 새로운 컬럼 변수(변수 값) 원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성 확보 비용, 연산 비용의 효율성 추구 피처 엔지니어링 원시 데이터로부터 적절하고 올바른 특징들을 만들어 내는 일련의 과정 품질 확보 - 가공을 거치지 않은 Raw 데이터 활용 기반의 모델링은 품질 확보가 어렵다. 최적화된 형태 변환 - 효과적인 Featur..
목표 변수 변환의 정의 및 특징을 설명할 수 있다. 구간화를 지정 길이 기반 방안과 분포 기반 방안으로 구분할 수 있다. 정규화를 최대-최소 정규화와 Z-점수 정규화 방안으로 구분할 수 있다. 데이터 변환(Transformation) 연속형, 범주형 등 원 데이터의 값을 다른 형태로 바꾸는 과정 분석 방법론에 대한 적용 여러 형태로 표현된 데이터 값을 다양한 분석 방법론에 적용하기 위해 원시 형태에서 다른 형식으로 바꾸는 과정 주어진 목적 기반의 올바른 결과 획득을 위하여 원시 데이터를 데이터 분석에 용이하도록 형태 변환 변환 목적 및 특징 빠른 특성 파악 데이터의 특성을 빠르게 파악 가능 파생 변수 생성 및 단순화를 통한 결과 리포팅 등 활용 연령, 흡연량, 연령대를 연령대와 평균 흡령량으로(연령대 별..