티스토리 뷰

반응형

1. 목표

 

pandas의 groupby 함수를 활용하여 데이터의 그룹화 실현

집계 함수 및 정력 함수를 사용하여 그룹 데이터의 특성 요약

 

데이터 그룹화를 하는 이유

특정 데이터 그룹의 특징에 대한 정보를 얻을 수 있어서다.

A,B,C 라는 Key 값으로 분류한다  -> A,B,C 에 있는 공동적인 Value 값 도출

 

groupby 메소드

 

pandas의 groupby 메소드는 열, 열의 리스트 또는 행 인덱스를 기준으로 그룹화를 진행시켜준다.

 

groupby 연산 결과로 Groupby 객체를 반환한다.

Groupby 객체에는 그룹연산 메소드가 내장되어 있다.

 

Group By -> Method(sum,mean,median,std/var,count,min/max) -> Aggregation(통계적 특징 도출)

 

사용되는 메소드

  • count - 그룹 내데이터 개수
  • sum - 그룹 내 데이터 합계
  • mean, median - 그룹 내 데이터의 평균값
  • var,std - 그룹 내 데이터 값의 분산, 표준편차
  • first,last - 그룹 내 데이터의 첫 번째, 마지막 값
  • Describe - 그룹 내 데이터의 기술통계량
  • aggregate or agg - 사용자 정의 함수를 데이터에 적용
  • apply - 사용자 정의 함수를 데이터에 적용

 

Groupby의 apply 함수

apply 함수로 다양한 연산 가능

 

grouped.apply(함수)

함수 예시 = 각 class별 최고령자

해당 함수에 해당하는 행을 전부 가져오는 게 가능

 

> 사용자 지정 함수 사용 가능

> lambda식과 자주 같이 쓰인다.

 

그룹별 반복 작업

Groupby 객체는 반복문을 이용할 수 있다.

 

groupby 객체는 그룹 이름과 그룹별 데이터를 튜플 형태로 가지고 있다.

이를 활용한 작업이 가능하다.

 

각 그룹별 데이터는 원래의 인덱스 값을 가지고 있다.

 

입력데이터에 대해서 groupby 데이터를 반환하게 되었을 때

 

for loop

그룹 1 - 그룹 1 데이터

그룹 2 - 그룹 2 데이터

....

그룹 N - 그룹 N 데이터

 

까지 반복 작업의 수행이 가능하다.

반응형