[Pandas] 데이터 전처리 - 결측 데이터 처리
목표 결측치의 정의 설명 결측치의 발생 원인 설명 파이썬을 활용하여 결측치 처리 결측치 데이터가 수집되지 않거나 누락되어 정보가 존재하지 않는 값. 결측치가 포함된 데이터는 모델 학습이 불가능(결측치 자체를 하나의 카테고리로 보는 경우 제외) 되도록 사전에 반드시 결측치 처리 결측치 발생 원인 대부분 수집 및 관리 과정에서 결측치가 발생한다. 미수집 - 미 입력된 데이터 시스템 오류 - 오류에 의해 누락(장치, 센서 오류) 신규 항목 - 새롭게 수집 및 저장하는 항목의 추가 결측치 처리 방안 제거하거나 대체하는 방법이 있다. 제거 : 가장 쉽지만 데이터 손실 대체: 최대한 많은 데이터를 활용하지만 편향 발생 *필자 추가 : 결측치 자체를 하나의 카테고리로 보는 방법도 있다. 결측치가 다른 값들에 비해 너..
데이터 사이언스 & 로봇/데이터 분석
2024. 2. 6. 11:08