파이썬에서 정말 정말 자주 사용하는 라이브러리 중 하나인 pandas에 대해 하나씩 배워보도록 하겠다.
[판다스 공식문서] https://pandas.pydata.org/docs/reference/index.html
1. Pandas란?
pandas는 행과 열 구조의 데이터 분석 도구로 두 가지 대표적인 자료 구조가 있다.
1) DataFrame: 행렬, 2차원 구조
2) Series: 벡터, 1차원 구조
2. 라이브러리 로드
import pandas as pd
판다스의 별칭은 주로 pd를 사용한다.
3. 파일 불러오고 저장하기
1) 엑셀 불러오기
pd.read_excel('파일명.xlsx')
2) CSV 파일 불러오기
pd.read_csv('파일명.csv')
파일명 뒤 확장자는 대소문자를 구분하니 참고하자.
3) glob를 사용하여 파일 불러오기
from glob import glob
file_name = glob("*.csv")[0]
df = pd.read_csv(file_name, encoding = "cp949")
경로가 다를 경우, data/*.csv 등으로 작성해주면 된다.
*은 모든 문자를 의미하므로 특정 문자 앞 뒤로 넣어주면, 특정문자로 시작하고 끝나는 파일명들을 불러올 수 있다.
4) 작업한 데이터프레임 파일로 저장하기
데이터프레임명.to_csv('파일명.csv', index = False)
index = False를 하면 인덱스를 포함하지 않고 저장하겠다는 뜻이다.
[예시]
df_grade.to_csv("grade.csv", encoding = "CP949")
df_grade.to_csv("grade.csv", index = False) # 인덱스 값을 저장하고 싶지 않을 경우
pd.read_csv("grade.csv", encoding = "CP949")
## 저장할 때는 데이터프레임명을 알려줘야 한다.
## 그러나 불러올 때는 데이터프레임명을 모르는 상태이다. 그러므로 pd.를 사용해야 한다.
'Python > Pandas' 카테고리의 다른 글
[Python] Pandas - 6. 데이터프레임 컬럼/행 추가, 변경, 삭제 (1) | 2022.10.15 |
---|---|
[Python] Pandas - 5. 데이터프레임 출력, 타입, 전치, 미리보기, 기술통계, 통계값(집계/상관계수 등) (0) | 2022.10.15 |
[Python] Pandas - 4. 데이터프레임 기본개념, 생성, 인덱싱과 슬라이싱(출력) (0) | 2022.10.15 |
[Python] Pandas - 3. 시리즈 어트리뷰트와 메서드 (0) | 2022.10.15 |
[Python] Pandas - 2. 시리즈 기본개념, 시리즈 생성, 인덱싱, 슬라이싱 (0) | 2022.10.15 |