[에이블스쿨] 12일차(2) - 웹 크롤링(html, css-selector, 정적 페이지,셀레니움)
정적 데이터는 html이 불러올 때마다 바뀌어진다. html 코드의 경우에는 html 코드는 데이터 프레임으로 바꾸기가 어렵다. 그래서 BeautifulSoup(뷰티풀 숩)이라는 걸로 DF로 바꿔준다. 이걸 위해서 html,css-selector를 배워야 한다. 동적 페이지와 정적 페이지로 안 되는 경우에는 셀레니움을 쓴다. 파이썬으로 브라우저를 조종한다. 셀레니움은 사실 크롤링을 위해서 만들어진 건 아니다. 셀레니움이 만들어진 이유는 화면의 내용을 바꿀 때마다 동작 테스트를 해봐야 하는데, 자동으로 해주는 웹 브라우저 테스팅 용도로 만들어졌다. 우클릭 -> 페이지 소스 보기 html 코드에서 해당 엘리먼트를 선택해서 문자열 데이터를 가져와야 한다. html의 문법 Document : 한페이지를 나타내는..
프로그래밍 공부/에이블스쿨
2024. 3. 8. 16:53