'데이터 사이언스 & 로봇' 카테고리의 글 목록 (16 Page)

[Pandas] 데이터 전처리 - 이상 데이터 처리

목표 이상치의 정의를 설명할 수 있다. 이상치를 판단하는 방법을 설명할 수 있다. 파이썬을 활용하여 이상치를 처리할 수 있다. 이상치(Outlier) 관측된 데이터 내 전체적 패턴에서 아주 작게, 혹은 아주 크게 벗어난 값 데이터 분석 결과 및 의사 결정에 왜곡을 일으킬 수 있다. 이상치의 유형 오류 데이터 - 센서나 시스템 오류로 잘못된 값을 수집한 경우 실제 데이터 - 실제 데이터가 맞지만, 극단적인 관측으로 인해 일반적인 관측 범위를 벗어난 경우(허리케인, 폭설 등) 평균 연봉에 포함되는 마이클 조던 - 이상치 현업에서는 잘못된 데이터인지 아닌지 구분하기 쉽지 않다. 그래서 데이터가 보여주는 현상에 대해서 의문을 가지고 전문가와 의논해봐야 한다. 이상치 처리 프로세스 통계적 방안 - 데이터 관점의 ..

데이터 사이언스 & 로봇/데이터 분석 2024. 2. 6. 12:08

[Pandas] 데이터 전처리 - 결측 데이터 처리

목표 결측치의 정의 설명 결측치의 발생 원인 설명 파이썬을 활용하여 결측치 처리 결측치 데이터가 수집되지 않거나 누락되어 정보가 존재하지 않는 값. 결측치가 포함된 데이터는 모델 학습이 불가능(결측치 자체를 하나의 카테고리로 보는 경우 제외) 되도록 사전에 반드시 결측치 처리 결측치 발생 원인 대부분 수집 및 관리 과정에서 결측치가 발생한다. 미수집 - 미 입력된 데이터 시스템 오류 - 오류에 의해 누락(장치, 센서 오류) 신규 항목 - 새롭게 수집 및 저장하는 항목의 추가 결측치 처리 방안 제거하거나 대체하는 방법이 있다. 제거 : 가장 쉽지만 데이터 손실 대체: 최대한 많은 데이터를 활용하지만 편향 발생 *필자 추가 : 결측치 자체를 하나의 카테고리로 보는 방법도 있다. 결측치가 다른 값들에 비해 너..

데이터 사이언스 & 로봇/데이터 분석 2024. 2. 6. 11:08

[딥러닝] Loss Scaling 기법 + Mixed Precision

2024.02.05 - [프로그래밍 공부/ML 및 DL 관련 이론] - [논문] 임베디드에서의 float32와 float 16, 그리고 int8 비교(양자화) [논문] 임베디드에서의 float32와 float 16, 그리고 int8 비교(양자화) https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11522634&language=ko_KR&hasTopBanner=true https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11132879 임베디드에 CNN 같은 모델이 적용되기 위해서는 양자화나 가지치기( sikaro.tistory.com 지난 시간의 논문 리뷰에서 양자화에 대해 설명했었다. 이때 Loss ..

데이터 사이언스 & 로봇/ML 및 DL 관련 이론 2024. 2. 5. 10:22

[논문] 임베디드에서의 float32와 float 16, 그리고 int8 비교(양자화)

https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11522634&language=ko_KR&hasTopBanner=true https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11132879 임베디드에 CNN 같은 모델이 적용되기 위해서는 양자화나 가지치기(드롭아웃)이 선행되어야 한다. 요즘에는 일반적으로 경량화가 되어 있는 모델들도 많아 스마트폰에서도 사용이 가능하지만, GPU가 없는 임베디드에서는 무리인 가능성이 없지 않다. 여기서 양자화는 float32 기반으로 스탄다드하게 훈련된 모델을, 타입 변환을 통해 용량을 줄이는 행위를 말한다. 그만큼 인식률이 떨어지는데, 두 논문은 얼마나 그 인식률이 ..

데이터 사이언스 & 로봇/ML 및 DL 관련 이론 2024. 2. 5. 09:16

[Pandas] 시계열 데이터의 기초(Resample, 데이터 시각화)

목표 시계열 자료의 특징을 이해하고 설명할 수 있다. Pandas를 이용하여 시계열 데이터를 조작할 수 있다. Pandas의 dataframe이 제공하는 시각화 메소드를 이용하여 시계열 데이터를 시각화할 수 있다. 시계열 데이터란? 순차적인 시간의 흐름으로 기록된 관측치의 집합 시계열 데이터는 고정된 시간 구간으로 나타나야 한다. (일별 데이터는 일별 데이터로만, 월별 데이터는 월별 데이터로만 구성되어야 한다) 시계열의 특징 1. 시간의 순차적인 흐름 2. 고정된 시간 구간의 관측치 > 월별 데이터로 관측되었다가 시간대별로 바뀌면 안된다. 즉, 하나의 카테고리로 완벽하게 분류되어야 한다. Datetimeindex 자료형을 사용한다 년,월, 일 -> 문자열 변환 Datetimeindex = pd.to_da..

데이터 사이언스 & 로봇/데이터 분석 2024. 2. 4. 21:34

[Pandas] 데이터 그룹화 (groupby)

1. 목표 pandas의 groupby 함수를 활용하여 데이터의 그룹화 실현 집계 함수 및 정력 함수를 사용하여 그룹 데이터의 특성 요약 데이터 그룹화를 하는 이유 특정 데이터 그룹의 특징에 대한 정보를 얻을 수 있어서다. A,B,C 라는 Key 값으로 분류한다 -> A,B,C 에 있는 공동적인 Value 값 도출 groupby 메소드 pandas의 groupby 메소드는 열, 열의 리스트 또는 행 인덱스를 기준으로 그룹화를 진행시켜준다. groupby 연산 결과로 Groupby 객체를 반환한다. Groupby 객체에는 그룹연산 메소드가 내장되어 있다. Group By -> Method(sum,mean,median,std/var,count,min/max) -> Aggregation(통계적 특징 도출) 사..

데이터 사이언스 & 로봇/데이터 분석 2024. 2. 3. 15:49

이전 1 ··· 13 14 15 16 17 18 19 ··· 21 다음

이전 다음

시카로의 공부방

티스토리툴바