데이터 사이언스의 발전 배경 Technology,Hardware, infra 관점 volume(크기) - 방대한 양의 데이터 velocity(속도) - 일반 처리 및 실시간 처리 variety(다양성) - 정형, 비정형, 빈정형데이터 Business,software,Analytics 관점 veracity(진실성) - 데이터 품질 및 신뢰성 확보 value(가치) - 궁극적 비즈니스 가치 창출 visualization(시각화) - 복잡한 결과의 시각화 표현 데이터 분석의 현재 내부 데이터의 한정적 활용 환경 -> 대용량 데이터의 분석 환경 -> 고차원 데이터 분석 환경(현재) 내외부/비정형(이미지) 데이터 확용 데이터 사이언티스트 정의 빅데이터를 가공 및 분석하여 새로운 가치를 창출하는 자 Citizen ..
음성인식, 언어지능, 음성합성 순으로 연계 음성인식(Speech To Text) 핵심어 검출, 음성구간 검출, 인식(디코더)로 나뉜다. 핵심어 검출 https://ahnjg.tistory.com/66 핵심어 검출 (KWS, Keyword Spotting) 목차 핵심어 검출 (KWS, Keyword Spotting) 개요 발화자의 음성에서 핵심어를 검출하는 방법 발화자의 음성에서 특징 추출 음향 모델을 활용한 키워드 판별 카카오 미니의 핵심어 검출 엔진 1. 핵심어 ahnjg.tistory.com 1. 음성에서 특징 벡터(feature)을 추출한다. 멜 주파수 캡스트럼, 필터 뱅크 에너지 또는 지각 선형 예측 등 말하는 구간만 잘라 전달한다. 2. 해당 음성 구간이 키워드인지 아닌지를 파악 일반적인 음향 ..
목적 정의 ->기업 활동에서 쌓인 데이터로 무엇을 할 수 있는가? 데이터 수집 데이터가 어디에 있는지를 알아야 한다. 회사 내부, 외부, 웹스크랩, 제휴 기업, 공공 데이터 등 데이터 출처를 두루 알고 있어야 한다. 대부분 자신이 속한 조직에 무슨 데이터가 있는지 모른다. 데이터 전처리(EDA) Raw Data를 가공(labeling) 주제에 맞는 데이터 부분 선택 및 변수 변환/ 추가. 탐색적 데이터 분석을 통해 수행한다. 데이터 학습(분석) 처음에 베이스라인 모델을 잡고, 예측 및 결과 도출을 한다. 성능 개선을 위해 전처리 단계나 데이터 수집 단계로 돌아가서 반복하며, 알고리즘을 개선하여 성능 개선을 이루어낸다. 캐글 경진대회의 경우 목적 정의와 데이터 수집의 절차가 건너뛰어진다. 각 단계의 고급 ..
머신러닝 딥러닝 체계도를 설명하는 글입니다. 머신러닝 머신러닝은 지도학습, 비지도학습, 강화학습으로 나뉜다. 데이터나 작업 속성이 무엇인지에 따라 선택해야 할 알고리즘이 달라진다. 지도학습 학습 데이터 선별 및 속성 지정, 학습 내용 제시 등을 사람이 담당 -문제은행을 풀게 하는 것. 패턴을 바탕으로 답을 추론 및 예측 학습용 데이터(입력 변수) -> 학습 결과(출력 변수) 입력 변수와 출력 변수의 관계 함수를 알아내는 것. 캐글 경진대회와 같은 성향 비지도학습 정답이 없는 문제를 제공하면 시스템 스스로 문제를 분석하고 데이터 학습으로 결론 도출 분류되지 않은 데이터를 제공받아, 데이터 기저 고유 패턴을 적용한다. 1. 클러스터링 구조(Clustering Structure) 2. 저차원 다양체 (Low-..
10진법을 N 진법으로 변환하는 가장 기본은 해당 수로 몫과 나머지를 구해나가며, 나중에 나머지를 역순으로 붙인다는 것이다. python에서는 int 함수나 hex, bin 같은 내장 함수로 10진수를 2,8,16 진수로 바꿀 수 있고, n 진수에서 10진수로 바꾸는 것도 가능하다. 하지만 10진법을 n진법으로 바꾸기 위해서는 따로 설정해주는 함수가 필요한데, 이는 다음과 같다. import string tmp = string.digits+string.ascii_uppercase+string.ascii_lowercase #진수 변환 함수 print(tmp) def convert(num, base) : q, r = divmod(num, base) #몫과 나머지를 구한다. if q == 0 : return ..
보호되어 있는 글입니다.