1. 목표 각기 다른 두개 이상의 DataFrame을 하나로 병합 (Join, Merge) 하여 결과 집합으로 만들어낸다. Inner Join, Outer Join, Left Join, Right Join이 존재. 데이터의 구조와 문제에 맞게 적용한다. 실전에서 생기는 상황에 대한 적용을 학습한다. Inner Join Dataframe 간 조인 조건을 만족하는 행 (교집합)을 합치는 것 >key 값이 A,B 모두에 존재해야 병합 가능 >일치하는 키 값이 없다면 결과 테이블에 포함 X 일대일 병합 a,b,c 컬럼과 c,d 컬럼이 있다면 a,b,c,d 컬럼이 된 병합 데이터프레임이 된다. 이때 c 컬럼은 결과 수가 같아야 한다. 일대다 병합 만약 C 컬럼의 결과 수가 다르다면? A B C A1 B1 C1 A..
목표 pandas를 활용하여 데이터의 생성, 조회, 변경, 및 삭제. Open API가 제공하는 JSON 형식의 데이터를 pandas DataFrame으로 변환 CRUD 데이터의 생성, 조회, 수정, 삭제를 일컫는 말 Create, Read, Update, Delete -> CRUD DataFrame을 목적에 맞게 변경하여 다루는 게 중요하다. 열을 생성하거나, DataFrame안의 값을 업데이트 하거나, 행을 제거하거나 하는 일을 실행한다. DataFrame의 인덱스 loc 인덱서를 이용하여 원하는 데이터 조회(불리안 인덱싱 및 일반 조회) OpenAPI를 이용한 데이터 수집 공공데이터 포털, 영화진흥위원회 불러 올 때 가장 인기 있는 형식은 Json. JSON은 파이썬의 딕셔너리와 굉장히 비슷하게 생..
Numpy 딥러닝 Input 데이터 (3차원 이상의 배열) Numpy 라이브러리로 구현 특징 고속 연산 파이썬 리스트에 비해 빠른 속도와 좋은 메모리 효율 선형대수 연산이 가능 쉬운 데이터 배열 처리(반복문 필요 없음) 쉽고 빠른 배열 전환 3차원에서 2차원으로 전환(차원 변경) (3,2,4) > (4,6) 다양한 내장 함수 제공 축(axis)에 따른 집계 연산 가능 배열의 형태 조전이 맞으면 다른 배열과 연결 가능 손쉬운 랜덤 샘플링 가능(난수 생성) 행별, 열별 연산 Numpy 배열 ndarray의 shape/ndim/size 속성을 이용하면 배열의 형태/차원/원소 개수 파악 가능 (2,4,4) -> shpae ndim -> 3 size : 32 Pandas 라이브러리 Dataframe(Pandas)..
데이터 사이언스의 발전 배경 Technology,Hardware, infra 관점 volume(크기) - 방대한 양의 데이터 velocity(속도) - 일반 처리 및 실시간 처리 variety(다양성) - 정형, 비정형, 빈정형데이터 Business,software,Analytics 관점 veracity(진실성) - 데이터 품질 및 신뢰성 확보 value(가치) - 궁극적 비즈니스 가치 창출 visualization(시각화) - 복잡한 결과의 시각화 표현 데이터 분석의 현재 내부 데이터의 한정적 활용 환경 -> 대용량 데이터의 분석 환경 -> 고차원 데이터 분석 환경(현재) 내외부/비정형(이미지) 데이터 확용 데이터 사이언티스트 정의 빅데이터를 가공 및 분석하여 새로운 가치를 창출하는 자 Citizen ..
음성인식, 언어지능, 음성합성 순으로 연계 음성인식(Speech To Text) 핵심어 검출, 음성구간 검출, 인식(디코더)로 나뉜다. 핵심어 검출 https://ahnjg.tistory.com/66 핵심어 검출 (KWS, Keyword Spotting) 목차 핵심어 검출 (KWS, Keyword Spotting) 개요 발화자의 음성에서 핵심어를 검출하는 방법 발화자의 음성에서 특징 추출 음향 모델을 활용한 키워드 판별 카카오 미니의 핵심어 검출 엔진 1. 핵심어 ahnjg.tistory.com 1. 음성에서 특징 벡터(feature)을 추출한다. 멜 주파수 캡스트럼, 필터 뱅크 에너지 또는 지각 선형 예측 등 말하는 구간만 잘라 전달한다. 2. 해당 음성 구간이 키워드인지 아닌지를 파악 일반적인 음향 ..
목적 정의 ->기업 활동에서 쌓인 데이터로 무엇을 할 수 있는가? 데이터 수집 데이터가 어디에 있는지를 알아야 한다. 회사 내부, 외부, 웹스크랩, 제휴 기업, 공공 데이터 등 데이터 출처를 두루 알고 있어야 한다. 대부분 자신이 속한 조직에 무슨 데이터가 있는지 모른다. 데이터 전처리(EDA) Raw Data를 가공(labeling) 주제에 맞는 데이터 부분 선택 및 변수 변환/ 추가. 탐색적 데이터 분석을 통해 수행한다. 데이터 학습(분석) 처음에 베이스라인 모델을 잡고, 예측 및 결과 도출을 한다. 성능 개선을 위해 전처리 단계나 데이터 수집 단계로 돌아가서 반복하며, 알고리즘을 개선하여 성능 개선을 이루어낸다. 캐글 경진대회의 경우 목적 정의와 데이터 수집의 절차가 건너뛰어진다. 각 단계의 고급 ..