1. 딥러닝 모델은 여러 곳에서 난수를 활용하여, 모델의 학습 및 실행 과정에서 무작위성이 적용됩니다. 이에 따라 같은 조건에서도 실행 결과가 항상 일정하지 않을 수 있습니다. 따라서 항상 동일한 결과를 얻기 위해서는 모델 실행 시 사용되는 시드(seed)값을 고정시켜야 합니다. 2. GPU(그래픽 처리 장치)를 활용하면 딥러닝 모델의 연산 속도를 획기적으로 향상시킬 수 있습니다. GPU는 병렬 연산을 처리하는 능력이 뛰어나기 때문에, 딥러닝 모델의 대규모 연산을 빠르게 처리할 수 있습니다. 3. 파이토치에서는 데이터셋을 준비하기 위해 Dataset 클래스를 상속하여 사용합니다. 이를 통해 데이터를 적절히 구성하고, 모델 학습에 활용할 수 있습니다. 4. DataLoader 클래스는 파이토치에서 데이터셋..
https://www.youtube.com/watch?v=3G5hWM6jqPk&list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&index=4 GANs에 대해 너무 설명을 잘한 영상이라 가져왔다. 확실히 MIT 분들이 똑똑한 것 같다. 그래서 이 글은 GANs를 만드는 방법에 대한 요약이다. 머신러닝의 공식화 원래 머신 러닝은 지도학습과 비지도학습으로 나뉜다. x 데이터, y는 라벨 그런데 비지도학습이라는 다른 것도 있다. 데이터 자체는 x로 주어지나, 라벨은 없다. 생성형 모델 여기서 목표가 중요하다. 생성형 모델의 목표는, Take as input training samples from some distribution and learn a model that represent t..

2024.02.05 - [프로그래밍 공부/ML 및 DL 관련 이론] - [논문] 임베디드에서의 float32와 float 16, 그리고 int8 비교(양자화) [논문] 임베디드에서의 float32와 float 16, 그리고 int8 비교(양자화) https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11522634&language=ko_KR&hasTopBanner=true https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11132879 임베디드에 CNN 같은 모델이 적용되기 위해서는 양자화나 가지치기( sikaro.tistory.com 지난 시간의 논문 리뷰에서 양자화에 대해 설명했었다. 이때 Loss ..
https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11522634&language=ko_KR&hasTopBanner=true https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11132879 임베디드에 CNN 같은 모델이 적용되기 위해서는 양자화나 가지치기(드롭아웃)이 선행되어야 한다. 요즘에는 일반적으로 경량화가 되어 있는 모델들도 많아 스마트폰에서도 사용이 가능하지만, GPU가 없는 임베디드에서는 무리인 가능성이 없지 않다. 여기서 양자화는 float32 기반으로 스탄다드하게 훈련된 모델을, 타입 변환을 통해 용량을 줄이는 행위를 말한다. 그만큼 인식률이 떨어지는데, 두 논문은 얼마나 그 인식률이 ..
음성인식, 언어지능, 음성합성 순으로 연계 음성인식(Speech To Text) 핵심어 검출, 음성구간 검출, 인식(디코더)로 나뉜다. 핵심어 검출 https://ahnjg.tistory.com/66 핵심어 검출 (KWS, Keyword Spotting) 목차 핵심어 검출 (KWS, Keyword Spotting) 개요 발화자의 음성에서 핵심어를 검출하는 방법 발화자의 음성에서 특징 추출 음향 모델을 활용한 키워드 판별 카카오 미니의 핵심어 검출 엔진 1. 핵심어 ahnjg.tistory.com 1. 음성에서 특징 벡터(feature)을 추출한다. 멜 주파수 캡스트럼, 필터 뱅크 에너지 또는 지각 선형 예측 등 말하는 구간만 잘라 전달한다. 2. 해당 음성 구간이 키워드인지 아닌지를 파악 일반적인 음향 ..
목적 정의 ->기업 활동에서 쌓인 데이터로 무엇을 할 수 있는가? 데이터 수집 데이터가 어디에 있는지를 알아야 한다. 회사 내부, 외부, 웹스크랩, 제휴 기업, 공공 데이터 등 데이터 출처를 두루 알고 있어야 한다. 대부분 자신이 속한 조직에 무슨 데이터가 있는지 모른다. 데이터 전처리(EDA) Raw Data를 가공(labeling) 주제에 맞는 데이터 부분 선택 및 변수 변환/ 추가. 탐색적 데이터 분석을 통해 수행한다. 데이터 학습(분석) 처음에 베이스라인 모델을 잡고, 예측 및 결과 도출을 한다. 성능 개선을 위해 전처리 단계나 데이터 수집 단계로 돌아가서 반복하며, 알고리즘을 개선하여 성능 개선을 이루어낸다. 캐글 경진대회의 경우 목적 정의와 데이터 수집의 절차가 건너뛰어진다. 각 단계의 고급 ..