PyCaret H2O AutoML TPOT Auto-sklearn FLAML EvalML AutoKeras Auto-ViML AutoGluon MLBox pycaret 사용법 !pip install pycaret !pip install markupsafe==2.0.1 !pip install --upgrade pycaret import pycaret print(pycaret.__version__) from pycaret.classification import * #분류 from pycaret.regression import * #회귀 3.3.0이 최신버전 exp = setup(data=train_df, target='Activity_dynamic', train_size=0.9, normalize=True,..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/kzVvj/btsFBc1tXsG/CEaklAkba6AzaHKD1wZUz0/img.png)
정적 데이터는 html이 불러올 때마다 바뀌어진다. html 코드의 경우에는 html 코드는 데이터 프레임으로 바꾸기가 어렵다. 그래서 BeautifulSoup(뷰티풀 숩)이라는 걸로 DF로 바꿔준다. 이걸 위해서 html,css-selector를 배워야 한다. 동적 페이지와 정적 페이지로 안 되는 경우에는 셀레니움을 쓴다. 파이썬으로 브라우저를 조종한다. 셀레니움은 사실 크롤링을 위해서 만들어진 건 아니다. 셀레니움이 만들어진 이유는 화면의 내용을 바꿀 때마다 동작 테스트를 해봐야 하는데, 자동으로 해주는 웹 브라우저 테스팅 용도로 만들어졌다. 우클릭 -> 페이지 소스 보기 html 코드에서 해당 엘리먼트를 선택해서 문자열 데이터를 가져와야 한다. html의 문법 Document : 한페이지를 나타내는..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/blrkbt/btsFEvSLtDP/FJuKTm2PaK3w9ksffYF9N0/img.png)
직방 원룸 데이터 수집 RestAPI가 복잡한 경우 직방 -> 원룸 개발자 도구 열기 망원동을 검색하면 망원동 매물 데이터가 나온다. 그러면 네트워크의 preview에서 어떤 데이터가 필요한지를 알아야 한다. oneroom으로 되어 있는 네트워크 트래픽의 url을 가져와야 한다. 상상력을 좀 발휘해야 한다. preview에서 디테일한 정보는 없고, 위도 값과 경도 값, 그리고 id가 있는지에 대한 것만 나온다. list를 보면 post 방식이다. id가 있고, id에 대한 정보들을 넣어주면 나머지 정보를 내뱉는다. geohash -> 위도 값과 경도 값은 점을 나타내는데 , 위도 경도 값을 영역을 표시 할 수 있게 넓혀준 것이다. Process - 동이름으로 위도 경도 구하기 (search의 url) -..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bRhCLv/btsFzaiFjCV/t0AMH1n52iHJ6IdIUnmwiK/img.png)
웹 크롤링은 웹 페이지에서 데이터를 수집하는 방법이다. 크롤링 기술은 데이터(text,이미지,html)을 브라우저가 url에 데이터를 요청해서 받아오는 것을 python으로 만드는 것이다. url을 반드시 잘 알아야 데이터를 잘 받아올 수 있다. 웹 크롤링 방법 일단 웹 페이지의 종류에는 두 가지가 있다. 정적엔 페이지 : 웹 브라우저에 화면이 뜨면 이벤트에 의한 화면 변경이 없는 페이지이다. 동적인 페이지 : 웹 브라우저에 화면이 뜨고 나서 이벤트가 발생하면 서버에서 데이터를 가져와 화면을 변경해주는 페이지이다. 페이지에서 2번을 클릭하면 url이 2번으로 바뀐다. url 변경이 되지 않는 한, 변경이 없다. 이런게 정적 페이지. 동적 페이지는 더보기 페이지가 있는 경우가 많다. url은 바뀌지 않았는..
의료 부분의 데이터는 구하기 힘들다 데이터 분산 - Spark 웹 크롤링, 데이터베이스, 웹 프로그래밍 크롤링 예시 쇼핑몰 데이터 크롤링, 이미지 크롤링, 네이버 주식 데이터 크롤링 등 클래스의 개념 cpu , ram, sdd(hdd) - 컴퓨터의 구조 1. 변수선언 : 메모리를 사용한다. 메모리에 데이터를 할당 및 저장공간 구별을 위해 식별자를 넣는다 2. 데이터 타입 : 메모리를 효율적으로 사용한다 : int,float,bool,str,list,tuple,dict,set 등 3. 연산자 : cpu 사용 문법(ALU) : 산술, 비교, 논리, 할당, 멤머 등.4. 조건문, 반복문 : 컴퓨터가 자동으로 판단하게 해주고, 똑같은 코드를 반복하지 않게 효율을 높여준다.if,else,while,for,brea..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bV3mHj/btsFyuOteDH/7eSKUDnFgjlnoShc7eJ4PK/img.png)
이론 강의를 토대로 실제 사례에 적용해보는 시간 스스로 문제를 해결하는 역량을 기르는 시간 미니프로젝트는 에이블스쿨의 A to Z라고 할 수 있겠다. 실제로 배운 것을 적용해보고 토의하는 시간. 여러 차례 미니프로젝트의 최종 목표는 결국 솔루션을 제시할 정도의 역량을 기르고, 이후에 빅프로젝트를 할 기반을 다지는 것이다. 1차적으로 서울시 생활정보 기반 대중교통 수요 분석 (미션 : 버스 노선 추가가 필요한 서울 시 내 자치구 선정) 2차는 따릉이 수요 예측 데이터였다.(날씨 데이터 분석 및 인사이트 도출) 1. 데이터 구조 이해 2. 데이터 분포 확인 3. 비즈니스 관점 가설 수립 및 검증 4. 관계분석 시각화 및 수치화 가설 수립, 단변량/이변량 분석, 검증, 인사이트 도출 시각화 부분에서 어떻게 하..