Tidy data?

tidy data는 말 그대로 깔끔한 데이터이다.

 

Jeff Leek가 쓴 책 The Elements of Data Analytic Style에서 정의한 깔끔한 데이터

  1. 각 변수는 개별의 열(column)으로 존재한다.
  2. 각 관측치는 행(row)를 구성한다.
  3. 각 표는 단 하나의 관측기준에 의해서 조직된 데이터를 저장한다.
  4. 만약 여러개의 표가 존재한다면, 적어도 하나이상의 열(column)이 공유되어야 한다.

예시로

(221, 134)로 컬럼 값이 너무 많아서 보기 힘들다.

 

이처럼 가로로 배열된 데이터를 세로로 녹여줄 수 있는 것이 바로 melt 이다.

 

melt

[공식문서]

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

 

파라미터

id_vars: 녹일 컬럼 값

value_vars: 값으로 사용할 컬럼

(value_vars를 지정하지 않을 경우, id_vars에 지정한 컬럼을 제외하고 나머지를 value_vars로 인식한다.)

var_name: var 이름 명명

value_name: value 이름 명명

 

pd.melt(df_seoul, id_vars = df_seoul.columns[:4], var_name = "날짜", value_name = "소비자물가지수")

복사했습니다!