https://www.youtube.com/watch?v=ijpxmi4DPj4 오히려 옵티마이저가 빠지고 DML,TCL,DDL,DCL을 다룬다. DML -데이터의 삽입(INSERT), 수정(UPDATE),삭제(DELETE), 병합(MERGE)이 필요하다. -반드시 COMMIT, ROLLBACK 반드시 필요하다 - TCL INSERT -테이블에 행을 삽입 - 한 번에 한 행만 입력가능(SQL Serve, 여러 행 동시 삽입 가능 - 컬럼별 데이터타입과 사이즈에 맞게 삽입(스키마 필수) - 작성하지 않은 컬럼은 NULL이 입력된다. - 전체 컬럼에 대한 데이터 입력시 테이블명 뒤의 컬럼명 생략 가능 UPDATE - 데이터 수정할 떄 사용 - 컬럼 단위 수행 - 다중 컬럼 수정 가능 UPDATE 테이블명 SE..
범주 vs 범주는 어떻게 분석하는가? 성별별로 생존여부를 교차표로 집계해보면 된다. 교차표 교차표는 머신러닝 분류모델을 평가할 떄도 쓰인다. 교차표로부터 그래프를 그린다. 이 교차표를 기반으로 카이제곱 검정을 한다. Pandas의 교차표 함수 pd.crosstab(범주 행, 범주 열) pd.crosstab(범주 행, 범주 열,normalize = 'columns') #위에서 아래로 비율화 pd.crosstab(범주 행, 범주 열,normalize = 'index') #왼쪽에서 오른쪽으로 비율화 pd.crosstab(범주 행, 범주 열,normalize = 'all') #전체에서 비율화 nomalize =를 붙이면 비율로 변환한다. columns : 열 기준 100% index : 행 기준 100% all..
평균은 익숙하면서도 낯선 개념이다. 평균과 분산 모집단과 표본 표본 평균으로 어떻게 모평균을 추정하는가? 중심극한 정리 95% 신뢰구간 평균을 구할 때는 값들이 평균으로부터 얼마나 벗어나 있는지를 알아야 한다. 그걸 분산이라고 한다. 이탈도(deviation), 즉, 표준편차(Standard Deviation) 예측값, 추정값 = ŷ 분산 = (x- x̄ )^2 /n 모집단과 표본 전국 고등학생의 평균 키를 조사하려면, 표본조사. 전수조사 : 전체 모집단을 조사, 오차 0. 단, 비용, 시간 과다 표본조사 : 많은 수를 무작위로 추출, 오차는 있다. 그러나 적절한 비용과 시간이 들어간다. 표본을 가지고 계산을 했으면, 그러면 그 값이 모집단에 대해서 알고 싶었던 값이다. 모 평균을 알고 싶고, 모 분산을..
데이터 분석에서 가장 중요한 파트. 단변량 분석이든 다변량 분석이든 데이터와 비즈니스에 대해 더 잘 이해하기 위해 필요한 것이다. 가설 확인, 전처리 대상 정리 분포의 밀집과 희박한 정도를 보고 판단하는 데에는 한계가 있다. 그래서 현장에 간다. 제강 라인이 어떻게 흘러가는지 보고, 데이터가 어떤 상황에서 수집되었는지 알아야 한다. 불량이 어떤 과정에서 일어나는지를 알아야 한다. eeg나 FFT도 다 공부해야한다. 결측치는 조치 대상이다. 이상치 영향을 받는 선형, 로지스틱 회귀 그 외에 알고리즘들은, KNN,결정 트리,앙상블 알고리즘 등 이상치 분류할 수 있기 떄문에 잘 관심을 두지 않는다. 피처 스케일링 대상인지에 대한 것도 배우게 된다. 전처리에 대한 관심이 조금 줄어들고 있다. EDA & CDA의..
https://www.youtube.com/watch?v=_f_WZYuNr7A&t=8s WHERE 절 - 테이블의 데이터 중 원하는 조건에 맞는 데이터만 조회하고 싶을 경우 사용한다. - NULL 조회 시 IS NULL / IS NOT NULL 연산자 사용(= 연산자로 조회 불가능하다) BETWEEN a AND b -a와 b 사이값(이상 이하) IN(a,b,c) - a이거나 b이거나 c인 조건 LIKE - 특정 패턴을 가지고 있는 조건(문자열) NOT A - A가 아닌 모드 조건 WHERE ENAME(컬럼명) IN ('SAM', 'SUNG'); LIKE 연산자는 %와 _와 함께 사용된다 1) % : 자리수 제한 없는 모든 2) _ : _하나 당 한 자리수를 의미하며, 모든 값을 표현한다. LIKE 'S%..
종합실습 비즈니스 시나리오 - 고객사는 카시트 판매 회사 매출하락에 대해 파악해야 한다. 가격 경쟁력 하락이 타당한가? 국내 시장에 집중된 것이 타당한가? 지역마다 구매력 파악을 잘 했는가? 추정에 불과하므로 데이터 근거를 만든다. 1. 수치형 그래프 그리기 sales가 판매량 - 타깃값 경쟁사의 가격, 지역 평균 소득 이나 광고 예산 가장 먼저, 타깃값의 비즈니스 의미를 파악한다. 분포를 본다. eda_1_n에 df와 타깃값을 넣는다. 400.0 7.496325 2.824115 0.0 5.39 7.49 9.32 16.27 2. 보이는 그대로를 넘어서, 비즈니스적 의미를 파악한 내용을 적어보자. 판매량이 0인 지역이 있고, 대부분 판매량이 5천~1만개 사이이다. 즉, 추가 분석 사항으로 0~4천, 4천~..