오차 행렬, 로그 손실, ROC 곡선과 AUC. 오차 행렬 실제와 예측의 차이를 나타내는 행렬 TP(실제 양성 예측 양성) / +와+ FN(실제 양성 예측 음성) / +와 - FP(실제 음성 예측 양성) / -와 + TN(실제 음성 예측 음성) / -와- 정확도 실제 예측한 정확도. 즉, 전후가 같은 부호인지를 보면 된다. (TP+TN) /(TP+FN+FP+TN) 그러나 평가지표로 정확도를 사용하는 경우는 많지 않다. TN의 특수성 때문. 매일 비가 안온다고 예측해도 10일 1일꼴로 비가온다고 했을 때 정확도가 90%다. 우수성을 담보할 수 없다. 정밀도 precision = TP/(TP+FP) = 비가 실제로 온다고 예측 / (비가 실제로 온다 예측 + 예측했지만 비가 오지 않았다.) 정밀도는 음성을 ..
회귀와 분류 분류 - classification 어떤 대상을 정해진 범주에 구분해 넣는 작업. 두 개면 이진분류, 세 개 이상이면 다중분류. 회귀 - 변수가 다른 변수에 영향을 미칠 때 사용 영향을 미치는 변수를 독립변수 (independent variable) 영향을 받는 변수를 종속변수(dependent variable) 수면의 질과 공장의 재고 수준은 시험 성적, 건강에 영향을 미친다. 회귀는 독립변수와 종속변수간 관계를 모델링하는 방법. 회귀와 분류가 다른 점은 종속변수가 범주형 데이터가 아니라는 것. 회귀에서 종속변수는 수치형 데이터다. 종속변수는 예시로 Y = Ax+b 라 하는 함수로 나타내어진다. (x라는 독립변수들이 들어가면, Y라는 종속변수가 튀어나옴) 회귀 문제에서는 독립변수(피쳐)와 ..
기본적으로 타이타닉 데이터셋 import seaborn as sns titanic = sns.load_dataset('titanic') # 타이타닉 데이터 불러오기 범주형의 데이터 시각화 막대 그래프, 포인트 플롯, 박스 플롯, 바이오린플롯, 카운트 플롯이 차례대로 있다. sns.barplot(x='class', y='fare', data=titanic); #x는 클래스로 잡고, y는 fare 잡았다. #앞선 숫자형 플롯들과 다른 점은, 뒤쪽에 데이터가 붙는다는 것. 막대 상단의 검은색 세로줄이 오차 막대. 개인적으로 주식 캔들바랑 비슷해서 훨씬 익숙하다. 포인트 플롯 막대 그래프와 모양만 다를 뿐 동일한 정보. 다만 막대가 사라지고 각 꼭대기 부분을 선으로 연결 sns.pointplot(x='class..