
복습 TF-IDF로 벡터화한 값은 자카드 유사도를 제외한 모든 유사도 판단에서 사용한다. 코사인 유사도 - 직관적인 유사도 값을 가진다. 회사에서 코딩하는 거랑 연구하는 것이랑 다르다. 소프트웨어 값을 계속 바꿔도 소리가 안잡힌다. pcb 하드 웨어에서 전력이 문제 업체 부르면 해결 회사는 공부를 가르쳐 주는 게 아니라, 데드라인을 맞추는 게 중요하다. 남의 코드를 잽싸게 보고, 거기에 내가 원하는 코드를 빠르게 넣는게 중요하다. 남의 코드를 많이 돌려보면서 눈에 익어서, github 같은 코드 중에서 빠르게 고칠 수 있는 능력이 제일 좋다. 소프트웨어공학 - 에자일 방법론, 디자인 패턴 회사에서는 제일 중요한 게 이것이다. Word Embedding 신경망을 만들어서 학습을 시켰다. 일단 원핫 인코딩을..

어떠한 값을 순차탐색하면 확실히 데이터를 얻을 수 있지만, 모든 데이터를 살펴봐야하는 경우가 있으므로 효율적이지 않다. 그러므로 해시는 어떠한 기준(함수)로 변환한 값을 인덱스로 삼아서, 그 인덱스에 해당하는 배열에 키와 값을 저장해 빠른 데이터 탐색을 제공하는 자료구조다. 여기서 탐색에 특화되었다는 게 중요하다. 리스트 자료구조의 경우, 보통 검색에 O(n), 추가에 O(1)이자만, 여기서는 반대이다. 물론 리스트도 중간 추가면 O(n)이긴 하다. 그러나 차이점을 아는 게 중요하다. 해시의 시간복잡도 삽입(Insert): 평균 O(1), 최악의 경우 O(n) 검색(Search): 평균 O(1), 최악의 경우 O(n) 삭제(Delete): 평균 O(1), 최악의 경우 O(n) 해시의 특징 해시는 키를 통..

자연어(NLP)가 가지는 유연성 덕분에 가능하다. 자연어는 사람의 언어 자연어로 대비되는 다른 언어 -> 형식 언어(프로그램 언어) 기호로 표시해서 넣는 것도 형식 언어다. 제 2외국어 - C언어(???) 한국말은 알타이게 언어다. 언어 체계에 다 분류가 있다. 춈스키-MIT 언어학과 교수 문법적인 형식을 따지고 생기기 때문에 형식 언어이다. 그러면 방언, 시간이 지나면서 다양성이 생긴다(유연성) 형식 언어는 말 그대로 형식을 무조건 지켜줘야 한다. 고전적인 자연어 처리는 번역해서 기계가 알아들을 수 있게 하는 게 연구 그런데 자연어는 유도리가 많아서, 확률적으로 어떻게 다뤄주느냐가 주로 되었다. 컴파일러처럼 배우되, 확률적까지 배우니 인기가 없는 분야였다. 2016년 알파고가 나오기 전까지는 AI의 성..
보호되어 있는 글입니다.
보호되어 있는 글입니다.