종합실습 비즈니스 시나리오 - 고객사는 카시트 판매 회사 매출하락에 대해 파악해야 한다. 가격 경쟁력 하락이 타당한가? 국내 시장에 집중된 것이 타당한가? 지역마다 구매력 파악을 잘 했는가? 추정에 불과하므로 데이터 근거를 만든다. 1. 수치형 그래프 그리기 sales가 판매량 - 타깃값 경쟁사의 가격, 지역 평균 소득 이나 광고 예산 가장 먼저, 타깃값의 비즈니스 의미를 파악한다. 분포를 본다. eda_1_n에 df와 타깃값을 넣는다. 400.0 7.496325 2.824115 0.0 5.39 7.49 9.32 16.27 2. 보이는 그대로를 넘어서, 비즈니스적 의미를 파악한 내용을 적어보자. 판매량이 0인 지역이 있고, 대부분 판매량이 5천~1만개 사이이다. 즉, 추가 분석 사항으로 0~4천, 4천~..
숫자형 단변량 분석 데이터가 그렇게 분포하고 있는데에는 다 이유가 있다. 분포로부터 뭔가 특이한 점이 있다면 그 이유를 찾는 게 데이터 분석이다. 20명의 나이 데이터(정보)가 있다. 그러면 데이터를 한눈에 파악하기 위해서는 무엇을 해야 하는가? ->내 생각: 기본적인 건 정렬. 그 후에 그룹화 수치형 변수를 정리하는 두 가지 방법 1. 숫자로 요약하기 : 정보의 대표값 평균, 중앙값,최빈값, 사분위수 -> 기초 통계량 2. 구간을 나누고 빈도수를 계산한다. -> 도수 분포표 평균 : 산술평균, 기하 평균, 조화 평균 조화평균은 모델링 할때 다룬다. -> ROC AUC, F1 SCORE np.mean(df['컬럼명']) = 넘파이 함수 df.mean() 중위수 : 순서상 가운데 최빈값 = mode : 자..
https://www.youtube.com/watch?v=_f_WZYuNr7A&t=8s SQL 기본에 있던 DDL,DML,TCL,DDL이 관리 구문으로 빠졌다. 구성이 사실 별 변동이 없다. SQL 활용에서 Top N 쿼리, PIVOT 절과 UNPIVOT 절, 정규 표현식이 추가되었다. 이게 어렵게 느껴지는 포인트 나머지는 문제 잘 풀어보면서 체크 관계형 데이터베이스 개요 DBMS는 소프트웨어 이 소프트웨어가 관리하는 데이터의 집합이 데이터베이스다. DBMS는 데이터를 효과적으로 관리하기 위한 시스템이다. 관계형 데이터 베이스 구성 요소 계정, 테이블, 스키마 게정은 권한, 그리고 테이블은 데이터 형석, 스키마는 기본적인 구조를 정의한다. 테이블 1. 정의 -엑셀에서의 워크시트처럼 행과 열을 갖는 2차원..
데이터의 시각화 데이터에는 비즈니스가 담겨 있다. 데이터 시각화의 목적은 비즈니스의 인사이트를 파악하는 것. 언제나 요약된 정보가 표현되기 때문에, 요약을 하는 관점에 따라 해석의 결과가 달라진다. 어떤 식으로든 요약을 한다면 정보의 손실이 발생한다는 걸 유념해야 한다. matplotlib,seaborn data.dropna(axis = 0, inplace = True) dropna는 Nan을 없애는 함수. how=any 혹은 all을 하는데, 디폴트는 any. axis=0이면 행을 삭제하는 것. 차트 그리기 plt.plot(df['컬럼명']) plt.show() 이때 X축은 해당 값의 인덱스 기준이다. 인덱스 기준이라서 값이 들쭉날쭉 할 수 있다. 물론 X축과 Y축을 지정할 수도 있다. plt.plot..
날짜 데이터 요소 rolling shift 무엇이 시계열 데이터인지를 잘 알아야 한다. 딥러닝 마지막 시간에 시계열 데이터 모델링 시계열 데이터 시계열 데이터란 행과 행에 시간의 순서가 있고 행과 행의 시간간격이 동일한 데이터 가장 많이 사용되는 것 = 판매량 예측, 주가 예측 날짜 요소 뽑기 우선 날짜 타입으로 변환한다. -> pd.to_datetime(df['date']) 그 후에 해당 함수들을 적용한다. df['date'].dt.date df['date'].dt.year df['date'].dt.month 이런식의 요소롤 쓴다. df['date'].weekday 연 기준 몇 주 째인지도 있다. df['date'].weekofyear 단계 1. 날짜는 문자 타임이므로, pd.to_datetime(df..
항상 시작은 CRISP-DM 과제를 수행할 때 기본 프로세스 - 이 방법론의 기초에서 일을 하게 될 가능성이 높다. 비지니스 이해 데이터 이해 -> 데이터 평가 모델링 -> 평가 -> 배포 평가 -> 비지니스 이해 비지니스 이해 단계는 문제를 정의하는 단계. 회사에서 무엇을 기대하는 가? 회사의 문제를 해결하는 지를 기대하는 것이다. 데이터 분석, 모델링을 가지고 문제를 해결하는 것 1단계 데이터 분석 기본 구조가 2차원 수치하고 범주 기본 분석 단위 - 행 범주는 그룹을 짓는 것 - 공통된 특징 x : feature 독립변수 y : target, label 종속변수 분석 단위 : 샘플,관측치, 인스턴스(헷갈릴 수 있다), data point 한 행이 시간 단위로 쌓여있어야 한다. numpy 수치 연산,..