티스토리 뷰

반응형

이론 강의를 토대로 실제 사례에 적용해보는 시간

스스로 문제를 해결하는 역량을 기르는 시간

 

미니프로젝트는 에이블스쿨의 A to Z라고 할 수 있겠다.

실제로 배운 것을 적용해보고 토의하는 시간.

 

여러 차례 미니프로젝트의 최종 목표는 결국 솔루션을 제시할 정도의 역량을 기르고, 이후에 빅프로젝트를 할 기반을 다지는 것이다.

 

1차적으로 서울시 생활정보 기반 대중교통 수요 분석 (미션 : 버스 노선 추가가 필요한 서울 시 내 자치구 선정)

2차는 따릉이 수요 예측 데이터였다.(날씨 데이터 분석 및 인사이트 도출)

 

1. 데이터 구조 이해

2. 데이터 분포 확인

3. 비즈니스 관점 가설 수립 및 검증

4. 관계분석 시각화 및 수치화

 

가설 수립, 단변량/이변량 분석, 검증, 인사이트 도출

시각화 부분에서 어떻게 하면 잘 표현할 지 보여줘야 한다.

 

서울시 생활정보 기반 대중교통 수요 분석

단순히 유동인구가 많은 곳들 뿐만 아니라, 이동을 어디로 하는 지 알아야 한다.

모바일 신호 데이터를 기반으로 분석

 

발표는 시각화된 장표로

 

AS-IS : 교통 전문가의 직관에 의존하여 교통 데이터의 부재

TO-BE : 통신사 데이터를 활용했다.

 

인사이트 - 레거시 데이터보다는 빅데이터를 이용한 정확한 인사이트 도출

 

데이터를 보고 제대로 된 해석을 해내야 한다.

 

예시) 2024년 1월 일요일에 11010(종로구)에서 11010(종로구)로 이동하여 0~1시 사이에 도착했고 집에서 기타장소로 이동한 10~ 14세 여성은 5.96명이고 평균 이동 시간은 23분이다.

 

근거리 이동 밀집은 근거리 교통수단, 안정 정책이 필요하다.

주말 출근자 도착 위치 -> 주요 업무지역에서 접근이 취약한 곳에 정책을 반영한다.

서비스업= 도메인 지식

 

교통 분야 관련 이슈

이용자의 수요 반영, 패턴이나 수요자 중심 정책을 설계해야 한다.

따라서 공공데이터를 활용하여 인사이트를 도출해야 한다.

 

1. 서울은 25개의 구

2. 인구 1위 송파구, 꼴찌 중구

3. 큰 구 서초구, 작은 구 중구

4. 도로 길이 합이 제일 긴 구 - 성북(도로 길이가 길 수록 보행 여건이 더 좋아진다)

5. 도로 면적 합이 제일 큰 구 - 강남구

 

서울 시내 먼 거리를 이동(외곽에서 시내까지)

지선버스 : 환승, 지하철로 연계

광역버스 : 서울과 수도권 도시 연결

순환버스 : 단거리 순환 운행

 

1. 서울 지선+간선 버스 노선의 수 = 375개

2. 서울 소속 광역버스 노선의 수 = 11개 

3. 야간 노선의 운행 시작 시간 = 12시

4. KT 광화문 지사의 버스정류장 번호 = 01118

 

데이터 소개

서울시 승하차 이용 / 버스 데이터(메인)

서울시 구별 생활 인구 데이터(메인)

서울시 구별 주민 등록 인구 데이터(인사이트 추가용)

서울시 구별 업종 등록 데이터(인사이트 추가용)

 

서울시가 목표. 따라서 서울시 버스번호만 추출해야 한다.

앞 2자리가 구 코드다

 

버스정류장 ARS 01~25까지

 

목표 = 서울시 유동인구 등의 인구 정보와 버스 승하차 인원, 운행 노선 분석으로

버스 노선 추가가 필요한 서울 내 자치구(ex, 강남구, 중구 등)를 선정한다.

 

도메인 이해 -> 데이터 분석 -> 시사점 도출

사실상 이 3가지가 70%를 차지한다.

 

무조건 하나의 자치구여야만 하지는 않다.

 

코드에 대한 인사이트

자릿수를 맞춰 0으로 채우는 함수는 zfill을 쓴다. (강사님께서는 뒤자리 3개를 날리셨다)

.str[:2]로 하면 2자리를 자를 수 있다.

데이터 변경을 할 떄는 .astype

str.replace(',','')를 하면 콤마를 날려버릴 수 있다.

함수를 쓰는 것이 훨씬 빠르다.

상관관계를 도출할 때는 숫자-숫자만 있는 컬럼을 써야 한다.

 

해석 인사이트

조별로 모여 토론할 때 더 많은 시너지가 났다.

직장 수가 많은 곳

기타주점업과 커피전문점은 결과 분포가 어느정도 일치한다.

 

시사점 도출 : 가설 설정 및 분석, 가설 검증 결과 기반 시사점 토의

솔루션 제시 

 

대화를 통해 실제로 생각하지 못한 결과를 도출하는 경우가 많았다.

온도에서는 불쾌지수를 도출하고, 시계열 데이터에서 9월 2일에는 올림픽대로  

또한 코로나 시즌이라는 걸 도출한 데이터도 있었다.

 

내가 분석한 시계열 데이터

 

정말 많은 걸 배웠고, 또 재밌었던 1차 미프였다.

반응형