목표 다변량 시각화를 정의할 수 있다. 파이썬을 활용하여 유형별 다변량 데이터를 시각화할 수 있다. 다변량 시각화 두 개 이상의 변수로 구성된 데이터의 관계를 시각화 기반으로 파악하는 데이터 탐색 유형 주어진 변수 간의 패턴 및 관계를 다양한 그래프의 시각화를 통해 전체적으로 파악한다. 다변량 시각화 종류 데이터 조합 시각화 방안 목적 범주형 - 범주형 모자이크플롯 두 개 범주형 변수 내 범주 별 조합의 빈도 크기를 개략적으로 파악 범주형 - 연속형 박스플롯 평행좌표 범주 별 기술통계량 및 경향성을 개략적으로 파악 연속형 - 연속형 산점도 연속형 변수 간 관계성을 개략적으로 파악(선형/비선형 및 음양 방향 등) 범주형 - 범주형에서는 모자이크 플롯 빈도 크기를 개략적으로 파악 범주 별 기술통계랑 및 경향..
목표 범주 인코딩의 정의를 설명할 수 있다. 변수의 결합과 분해를 기반으로 새로운 특징을 생성할 수 있다. 차원 축소의 목적에 따라 주성분 분석과 군집 분석을 통해 새로운 특징을 생성할 수 있다. 특징 생성 Feature Creation 원본 데이터의 조합/ 변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법 특징이란 원 데이터의 변환을 통해 생성되는 새로운 컬럼 변수(변수 값) 원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성 확보 비용, 연산 비용의 효율성 추구 피처 엔지니어링 원시 데이터로부터 적절하고 올바른 특징들을 만들어 내는 일련의 과정 품질 확보 - 가공을 거치지 않은 Raw 데이터 활용 기반의 모델링은 품질 확보가 어렵다. 최적화된 형태 변환 - 효과적인 Featur..
목표 변수 변환의 정의 및 특징을 설명할 수 있다. 구간화를 지정 길이 기반 방안과 분포 기반 방안으로 구분할 수 있다. 정규화를 최대-최소 정규화와 Z-점수 정규화 방안으로 구분할 수 있다. 데이터 변환(Transformation) 연속형, 범주형 등 원 데이터의 값을 다른 형태로 바꾸는 과정 분석 방법론에 대한 적용 여러 형태로 표현된 데이터 값을 다양한 분석 방법론에 적용하기 위해 원시 형태에서 다른 형식으로 바꾸는 과정 주어진 목적 기반의 올바른 결과 획득을 위하여 원시 데이터를 데이터 분석에 용이하도록 형태 변환 변환 목적 및 특징 빠른 특성 파악 데이터의 특성을 빠르게 파악 가능 파생 변수 생성 및 단순화를 통한 결과 리포팅 등 활용 연령, 흡연량, 연령대를 연령대와 평균 흡령량으로(연령대 별..
목표 pandas를 활용하여 데이터의 생성, 조회, 변경, 및 삭제. Open API가 제공하는 JSON 형식의 데이터를 pandas DataFrame으로 변환 CRUD 데이터의 생성, 조회, 수정, 삭제를 일컫는 말 Create, Read, Update, Delete -> CRUD DataFrame을 목적에 맞게 변경하여 다루는 게 중요하다. 열을 생성하거나, DataFrame안의 값을 업데이트 하거나, 행을 제거하거나 하는 일을 실행한다. DataFrame의 인덱스 loc 인덱서를 이용하여 원하는 데이터 조회(불리안 인덱싱 및 일반 조회) OpenAPI를 이용한 데이터 수집 공공데이터 포털, 영화진흥위원회 불러 올 때 가장 인기 있는 형식은 Json. JSON은 파이썬의 딕셔너리와 굉장히 비슷하게 생..
Numpy 딥러닝 Input 데이터 (3차원 이상의 배열) Numpy 라이브러리로 구현 특징 고속 연산 파이썬 리스트에 비해 빠른 속도와 좋은 메모리 효율 선형대수 연산이 가능 쉬운 데이터 배열 처리(반복문 필요 없음) 쉽고 빠른 배열 전환 3차원에서 2차원으로 전환(차원 변경) (3,2,4) > (4,6) 다양한 내장 함수 제공 축(axis)에 따른 집계 연산 가능 배열의 형태 조전이 맞으면 다른 배열과 연결 가능 손쉬운 랜덤 샘플링 가능(난수 생성) 행별, 열별 연산 Numpy 배열 ndarray의 shape/ndim/size 속성을 이용하면 배열의 형태/차원/원소 개수 파악 가능 (2,4,4) -> shpae ndim -> 3 size : 32 Pandas 라이브러리 Dataframe(Pandas)..
목적 정의 ->기업 활동에서 쌓인 데이터로 무엇을 할 수 있는가? 데이터 수집 데이터가 어디에 있는지를 알아야 한다. 회사 내부, 외부, 웹스크랩, 제휴 기업, 공공 데이터 등 데이터 출처를 두루 알고 있어야 한다. 대부분 자신이 속한 조직에 무슨 데이터가 있는지 모른다. 데이터 전처리(EDA) Raw Data를 가공(labeling) 주제에 맞는 데이터 부분 선택 및 변수 변환/ 추가. 탐색적 데이터 분석을 통해 수행한다. 데이터 학습(분석) 처음에 베이스라인 모델을 잡고, 예측 및 결과 도출을 한다. 성능 개선을 위해 전처리 단계나 데이터 수집 단계로 돌아가서 반복하며, 알고리즘을 개선하여 성능 개선을 이루어낸다. 캐글 경진대회의 경우 목적 정의와 데이터 수집의 절차가 건너뛰어진다. 각 단계의 고급 ..