https://www.kaggle.com/werooring/ch4-data-visualization-relational import seaborn as sns flights = sns.load_dataset('flights') # 비행기 탑승자 수 데이터 불러오기 flights.head() 관계도는 데이터 사이 관계 표시 히트맵 데이터 간 관계를 색상으로 표현한 그래프 -> 데이터가 많으면 난잡해지므로 그때 쓴다. 여기부터 범주형 데이터와 수치형 데이터가 같이 있다면 어떤게 범주형이고 수치형인지 구분하는 능력이 필요하다는 걸 느꼈다. 그렇기에 관계도가 필요한 것. 히트맵을 그리려면 데이터 구조의 변환이 필요하다. pandas의 pivot() 함수 활용. pivot은 index와 columns에 전달한 변..
기본적으로 타이타닉 데이터셋 import seaborn as sns titanic = sns.load_dataset('titanic') # 타이타닉 데이터 불러오기 범주형의 데이터 시각화 막대 그래프, 포인트 플롯, 박스 플롯, 바이오린플롯, 카운트 플롯이 차례대로 있다. sns.barplot(x='class', y='fare', data=titanic); #x는 클래스로 잡고, y는 fare 잡았다. #앞선 숫자형 플롯들과 다른 점은, 뒤쪽에 데이터가 붙는다는 것. 막대 상단의 검은색 세로줄이 오차 막대. 개인적으로 주식 캔들바랑 비슷해서 훨씬 익숙하다. 포인트 플롯 막대 그래프와 모양만 다를 뿐 동일한 정보. 다만 막대가 사라지고 각 꼭대기 부분을 선으로 연결 sns.pointplot(x='class..
데이터 종류 대분류 수치형 데이터 - 사칙 연산이 가능 범주형 데이터 - 범주로 나누어지는 데이터 이 중에서도 각각 연속, 이산과 순서, 명목으로 나뉜다. 수치형(연속) - 키, 몸무게 수입 수치형(이산) - 과일 개수, 책의 페이지 수 범주형(순서) - 학점, 순위(랭킹) 범주형(명목(간단하게 생각해보면 이름)) - 성별, 음식 종류, 우편 번호 이산형은 정수로 딱 떨어져 셀 수 있는 것. 범주형에서 순서형은 순위가 정해져 있다. 그에 반해 명목형은 순위가 따로 없는 데이터다. 수치형 데이터 시각화 import seaborn as sns titanic = sns.load_dataset('titanic') # 타이타닉 데이터 불러오기 titanic.head() #씨본을 사용하면 데이터가 더 정갈하다 ti..
Kaggle 시작이 막막하다면 kaggle의 사용법을 아주 잘 알려주는 책을 정리해보았다. https://goldenrabbit.co.kr/2022/05/10/%ec%ba%90%ea%b8%80-%ec%95%88%eb%82%b4%ec%84%9c-%ec%ba%90%ea%b8%80-%ec%9d%b4%eb%a0%87%ea%b2%8c-%ec%8b%9c%ec%9e%91%ed%95%98%ec%84%b8%ec%9a%94/ [ sikaro.tistory.com 전 시간에 이어서 이번엔 딥러닝 문제해결 프로세스이다. 딥러닝 문제해결 프로세스 문제(경진대회) 이해 - 배경, 목젹, 유형 등 / 평가지표 파악 탐색적 데이터 분석 - 데이터 구조 탐색 / 데이터 시각화(타깃값 분포, 데이터 수, 품질 등) 베이스라인 모델 - ..
kaggle의 사용법을 아주 잘 알려주는 책을 정리해보았다. https://goldenrabbit.co.kr/2022/05/10/%ec%ba%90%ea%b8%80-%ec%95%88%eb%82%b4%ec%84%9c-%ec%ba%90%ea%b8%80-%ec%9d%b4%eb%a0%87%ea%b2%8c-%ec%8b%9c%ec%9e%91%ed%95%98%ec%84%b8%ec%9a%94/ [캐글 안내서] ❷ 캐글, 이렇게 시작하세요 - 골든래빗 데이터 과학자를 위한 놀이터라고 불리는 캐글의 사용 설명서입니다. 캐글 가입부터 각 메뉴와 기능뿐 아니라 경진대회를 찾고 모델을 제출하고 평가받는 전 과정을 누구나 따라할 수 있게 쉽 goldenrabbit.co.kr 한국어로 되어 있고, 정말 친절하고 자세하게 나와 있어서..
프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 문제 해결을 위한 고민 얼핏 보고 DFS를 고려했으나, 삼각형의 높이가 500개라는 걸 보고 감이 왔다. 이건 DFS로 풀면 안된다고. 만약 DFS로 풀면 어떻게 될까? 경우의 수를 따져보면, DFS로 완전탐색하는데 걸리는 횟수는 1줄일 때 1번, 2줄일때 2번, 3줄일 때 4번, 4줄일 때 8번...이런 식으로 2^(n-1)가 된다. 500줄이면 2^499= 1,636,695,303,948,071,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,00..