[공식문서]

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

시리즈 속성과 메서드 게시글에서 언급했듯이

어트리뷰트는 괄호를 쓰지 않고, 메서드는 괄호( )를 사용한다.

또한 접근하고자 하는 데이터 뒤에 점을 찍고 사용하며 연결해서 사용할 수도 있다.(메서드체이닝)


1. 인덱스 출력 및 지정

1) 인덱스 출력

데이터프레임명.index

2) 인덱스 지정

데이터프레임명.index = [index로 지정할 것]
# 기본 값은 RangeIndex이다.

2. 컬럼명 출력

데이터프레임명.columns

3. value 값 출력

데이터프레임명.values

모든 값을 출력, numpy array형식으로 출력


4. 데이터 타입 확인

1) 데이터프레임 타입 확인

df.types

2) 컬럼별 데이터 타입 확인

데이터프레임명.dtypes

3) 타입변환

데이터프레임명.astype()

5. 데이터프레임 전치

데이터프레임명.T

6. 데이터프레임 미리보기/요약보기

1) 상위 5개 

df.head()

2) 하위 5개

df.tail()

3) 랜덤 5개 추출

df.sample()

랜덤 값을 고정할 수도 있다.

# 랜덤값 고정: random_state 1~42 아무 숫자나 사용해도 상관 없음
# frac = 0.05: 표본을 추출할 비율 (1은 100%, 0.05는 전체에서 5%만 가져오겠다.) 
df.sample(random_state = 42)
df.sample(frac = 0.05,random_state = 42)

4) 요약정보 보기

df.info( )

5) 크기 확인하기 - (행, 열) 순서

df.shape

6) 유일값, 유일값의 개수 확인하기

df["컬럼"].unique()
df.nunique()

단, unique는 시리즈에 nunique는 시리즈와 데이터프레임 모두에 사용할 수 있다.


7. 결측치 확인하기

1) 결측치 확인

df.isnull()

2) 결측치 합계

df.isnull().sum()

3) 결측치 비율

df.isnull().mean()

4) 결측치 시각화

plt.figure(figsize = (12, 8))
sns.heatmap(df.isnull(), cmap = "gray")

8. 기술통계 값 보기

1) 수치형 데이터

df.describe()

빈도수, 평균, 표준편차, 최대, 최소, 사분위수

Na 값 등 결측치는 사분위수와 개수 등의 정보에서 자동으로 제외된다.

2) 범주형 데이터

df.describe(include = "object")

빈도수, 유일값, 최빈값(top), 최빈값의 빈도수(freq)


9. 통계값 확인하기

1) 상관계수

df.coor()

2) sum()

df.sum()

3) mean()

4) max()

5) min()

복사했습니다!