[Python] 기술통계3 - 직접구하기(범주형 데이터)
2022. 9. 29. 20:09
Python/EDA
본 게시글은 멋쟁이 사자처럼 AI스쿨 7기 수업에서 배운 내용을 바탕으로 작성하였습니다. 지금까지 추상화된 도구로 기술통계를 구하는 방법과 수치형 데이터의 기술통계를 직접 구하는 방법을 배웠다. 이번에는 범주형 데이터의 기술통계를 직접 구하는 방법에 대해 배워보도록 하자. (사용 라이브러리: pandas, numpy, seaborn, matplotlib) [Python] 기술통계1 - pandas profiling, sweetviz, autoviz https://jeongsooyoon.tistory.com/entry/Python-%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84?category=1070760 [Python] 기술통계2 - 직접구하기(수치형 데이터) https://jeong..
[Python] 기술통계2 - 직접구하기(수치형 데이터)
2022. 9. 29. 17:40
Python/EDA
멋쟁이 사자처럼 AI스쿨 7기 박조은 강사님의 수업내용 및 자료를 바탕으로 포스팅하였습니다. 이전에는 추상화된 도구로 기술통계를 구하는 방법에 대해 배워보았다. 이번에는 도구를 사용하지 않고 직접 기술통계를 구하는 방법에 대해 배워볼 예정이다. (사용 라이브러리: pandas, numpy, seaborn, matplotlib) 추상화된 도구를 사용하면, 주로 확인하는 기술통계 값을 한꺼번에 확인할 수 있어서 간편하다. 그런데 왜 직접 기술통계를 구하는 것일까? 1. 대용량 데이터의 경우 추상화된 도구를 사용하기 어렵다. 2. 큰 용량의 데이터로 리포트를 출력하고자 할 때 시간이 오래걸린다. 즉, 추상화된 도구는 간편하기는 하지만 대용량의 데이터에는 부적절하며 직접 기술통계를 구할 경우에 보다 세밀하게 컨..
[Python] 기술통계1 - pandas profiling, sweetviz, autoviz
2022. 9. 29. 17:24
Python/EDA
멋쟁이 사자처럼 AI스쿨 7기 박조은 강사님의 수용내용 및 자료를 바탕으로 포스팅하였습니다. 추상화된 도구(pandas profiling, sweetviz, autoviz 등)로 기술통계를 간편하게 구하는 방법에 대해 배워볼 예정이다. 1. 수치형 변수와 범주형 변수 - 변수에는 수치형 변수와 범주형 변수가 있다. - 두 변수의 기술통계 값은 서로 다르다. - 일반적으로 seaborn을 활용하여 시각화를 할 경우, 범주형 데이터는 countplot을 수치형 데이터는 histogram을 사용한다. 2. 데이터셋 불러오기 데이터셋을 불러온 뒤에, 기본적으로 확인하면 좋을 사항들이다. 추가로 데이터 셋은 sns와 pd 라이브러리를 활용하여 불러올 수 있다. 데이터명 = sns.load_dataset("###"..