티스토리 뷰
반응형
1. 목표
pandas의 groupby 함수를 활용하여 데이터의 그룹화 실현
집계 함수 및 정력 함수를 사용하여 그룹 데이터의 특성 요약
데이터 그룹화를 하는 이유
특정 데이터 그룹의 특징에 대한 정보를 얻을 수 있어서다.
A,B,C 라는 Key 값으로 분류한다 -> A,B,C 에 있는 공동적인 Value 값 도출
groupby 메소드
pandas의 groupby 메소드는 열, 열의 리스트 또는 행 인덱스를 기준으로 그룹화를 진행시켜준다.
groupby 연산 결과로 Groupby 객체를 반환한다.
Groupby 객체에는 그룹연산 메소드가 내장되어 있다.
Group By -> Method(sum,mean,median,std/var,count,min/max) -> Aggregation(통계적 특징 도출)
사용되는 메소드
- count - 그룹 내데이터 개수
- sum - 그룹 내 데이터 합계
- mean, median - 그룹 내 데이터의 평균값
- var,std - 그룹 내 데이터 값의 분산, 표준편차
- first,last - 그룹 내 데이터의 첫 번째, 마지막 값
- Describe - 그룹 내 데이터의 기술통계량
- aggregate or agg - 사용자 정의 함수를 데이터에 적용
- apply - 사용자 정의 함수를 데이터에 적용
Groupby의 apply 함수
apply 함수로 다양한 연산 가능
grouped.apply(함수)
함수 예시 = 각 class별 최고령자
해당 함수에 해당하는 행을 전부 가져오는 게 가능
> 사용자 지정 함수 사용 가능
> lambda식과 자주 같이 쓰인다.
그룹별 반복 작업
Groupby 객체는 반복문을 이용할 수 있다.
groupby 객체는 그룹 이름과 그룹별 데이터를 튜플 형태로 가지고 있다.
이를 활용한 작업이 가능하다.
각 그룹별 데이터는 원래의 인덱스 값을 가지고 있다.
입력데이터에 대해서 groupby 데이터를 반환하게 되었을 때
for loop
그룹 1 - 그룹 1 데이터
그룹 2 - 그룹 2 데이터
....
그룹 N - 그룹 N 데이터
까지 반복 작업의 수행이 가능하다.
반응형