
이론 강의를 토대로 실제 사례에 적용해보는 시간 스스로 문제를 해결하는 역량을 기르는 시간 미니프로젝트는 에이블스쿨의 A to Z라고 할 수 있겠다. 실제로 배운 것을 적용해보고 토의하는 시간. 여러 차례 미니프로젝트의 최종 목표는 결국 솔루션을 제시할 정도의 역량을 기르고, 이후에 빅프로젝트를 할 기반을 다지는 것이다. 1차적으로 서울시 생활정보 기반 대중교통 수요 분석 (미션 : 버스 노선 추가가 필요한 서울 시 내 자치구 선정) 2차는 따릉이 수요 예측 데이터였다.(날씨 데이터 분석 및 인사이트 도출) 1. 데이터 구조 이해 2. 데이터 분포 확인 3. 비즈니스 관점 가설 수립 및 검증 4. 관계분석 시각화 및 수치화 가설 수립, 단변량/이변량 분석, 검증, 인사이트 도출 시각화 부분에서 어떻게 하..
https://www.youtube.com/watch?v=ijpxmi4DPj4 오히려 옵티마이저가 빠지고 DML,TCL,DDL,DCL을 다룬다. DML -데이터의 삽입(INSERT), 수정(UPDATE),삭제(DELETE), 병합(MERGE)이 필요하다. -반드시 COMMIT, ROLLBACK 반드시 필요하다 - TCL INSERT -테이블에 행을 삽입 - 한 번에 한 행만 입력가능(SQL Serve, 여러 행 동시 삽입 가능 - 컬럼별 데이터타입과 사이즈에 맞게 삽입(스키마 필수) - 작성하지 않은 컬럼은 NULL이 입력된다. - 전체 컬럼에 대한 데이터 입력시 테이블명 뒤의 컬럼명 생략 가능 UPDATE - 데이터 수정할 떄 사용 - 컬럼 단위 수행 - 다중 컬럼 수정 가능 UPDATE 테이블명 SE..

범주 vs 범주는 어떻게 분석하는가? 성별별로 생존여부를 교차표로 집계해보면 된다. 교차표 교차표는 머신러닝 분류모델을 평가할 떄도 쓰인다. 교차표로부터 그래프를 그린다. 이 교차표를 기반으로 카이제곱 검정을 한다. Pandas의 교차표 함수 pd.crosstab(범주 행, 범주 열) pd.crosstab(범주 행, 범주 열,normalize = 'columns') #위에서 아래로 비율화 pd.crosstab(범주 행, 범주 열,normalize = 'index') #왼쪽에서 오른쪽으로 비율화 pd.crosstab(범주 행, 범주 열,normalize = 'all') #전체에서 비율화 nomalize =를 붙이면 비율로 변환한다. columns : 열 기준 100% index : 행 기준 100% all..

평균은 익숙하면서도 낯선 개념이다. 평균과 분산 모집단과 표본 표본 평균으로 어떻게 모평균을 추정하는가? 중심극한 정리 95% 신뢰구간 평균을 구할 때는 값들이 평균으로부터 얼마나 벗어나 있는지를 알아야 한다. 그걸 분산이라고 한다. 이탈도(deviation), 즉, 표준편차(Standard Deviation) 예측값, 추정값 = ŷ 분산 = (x- x̄ )^2 /n 모집단과 표본 전국 고등학생의 평균 키를 조사하려면, 표본조사. 전수조사 : 전체 모집단을 조사, 오차 0. 단, 비용, 시간 과다 표본조사 : 많은 수를 무작위로 추출, 오차는 있다. 그러나 적절한 비용과 시간이 들어간다. 표본을 가지고 계산을 했으면, 그러면 그 값이 모집단에 대해서 알고 싶었던 값이다. 모 평균을 알고 싶고, 모 분산을..

데이터 분석에서 가장 중요한 파트. 단변량 분석이든 다변량 분석이든 데이터와 비즈니스에 대해 더 잘 이해하기 위해 필요한 것이다. 가설 확인, 전처리 대상 정리 분포의 밀집과 희박한 정도를 보고 판단하는 데에는 한계가 있다. 그래서 현장에 간다. 제강 라인이 어떻게 흘러가는지 보고, 데이터가 어떤 상황에서 수집되었는지 알아야 한다. 불량이 어떤 과정에서 일어나는지를 알아야 한다. eeg나 FFT도 다 공부해야한다. 결측치는 조치 대상이다. 이상치 영향을 받는 선형, 로지스틱 회귀 그 외에 알고리즘들은, KNN,결정 트리,앙상블 알고리즘 등 이상치 분류할 수 있기 떄문에 잘 관심을 두지 않는다. 피처 스케일링 대상인지에 대한 것도 배우게 된다. 전처리에 대한 관심이 조금 줄어들고 있다. EDA & CDA의..
https://www.youtube.com/watch?v=_f_WZYuNr7A&t=8s WHERE 절 - 테이블의 데이터 중 원하는 조건에 맞는 데이터만 조회하고 싶을 경우 사용한다. - NULL 조회 시 IS NULL / IS NOT NULL 연산자 사용(= 연산자로 조회 불가능하다) BETWEEN a AND b -a와 b 사이값(이상 이하) IN(a,b,c) - a이거나 b이거나 c인 조건 LIKE - 특정 패턴을 가지고 있는 조건(문자열) NOT A - A가 아닌 모드 조건 WHERE ENAME(컬럼명) IN ('SAM', 'SUNG'); LIKE 연산자는 %와 _와 함께 사용된다 1) % : 자리수 제한 없는 모든 2) _ : _하나 당 한 자리수를 의미하며, 모든 값을 표현한다. LIKE 'S%..