Program/파이썬

[Python] Pandas 사용

사막여유 2023. 1. 17. 08:18
728x90

Pandas를 사용할 때의 라이브러리는 아래 4개를 고정해서 사용한다.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

혹시 위 라이브러리들이 설치되어있지 않다면 
!pip install numpy pandas matplotlib seaborn 으로 다중설치해줄 수 있다.

 

이제 실제로 Pandas를 가지고 데이터를 만들어보면

 - DataFrame은 2차원테이블이고, 테이블의 한 줄 ( 행/열 )을 Series라고 한다.
 - Series의 모임이 곧 , Data Frame이 된다.

pd.Series ( [1,3,5,6,8] ) 

 

여기서 알 수 있는 것은 Series는 하나의 데이터 타입을 가진다는 것인데 
우리가 엑셀에서 정리할 때 한줄의 열에서는 하나의 데이터를 사용하기 때문.

예를들면 한 핸을 연봉으로 잡았을 때 1000만원, 2000만원, 5000만원 ... 등의 하나의 데이터 타입을 가져야 하는데
홍길동, 유재석 등의 이름 즉, 다른 데이터 타입이 나오면 안되기 때문이다.

 

DataFrame 만들기

# 12x4 행렬에 1부터 48까지의 숫자를 원소로 가지고, index는 0부터 시작하고, coulmns은 순서대로 x1,x2,x3,x4로하는 Data Frame 생성하기

df = pd.DataFrame( data = np.arange(1,49).reshape(12,4) , columns = ["x1","x2","x3","x4"])
np -> np.agrange : 범위내에 있는 숫자들을 모두 표시해준다. arange(1,49)이면 1부터 48까지의 숫자를 가진다.
np-> arange.reshape : 해당숫자들을 행렬로 정리한다. reshape(12,4)이면 12 x 4 행렬로 해당 숫자들을 정리한다.

 

그래서 위 DataFrame에서의 구성들을 확인할 수 있는데
해당 구성들을 살펴보기 위한 코드를 입력해보면 아래와 같다.

이처럼 DataFrame에 해당하는 구성들을 코드로 작성하여 실행시키면
현재 Index는 무엇인지 columns과 values는 어떻게 구성되어있는지를 확인할 수 있다.

만약 특정한 columns에 해당하는 값들을 가져오고싶다면 아래와같이 구현할 수 있다.

여기서 사칙연산도 가능하다.

 

그리고 DataFrame에서 자주 사용하는 함수들이 아래에 나와있다.

 

* head
df.head는 DataFrame의 맨 위 다섯줄을 보여주게된다.

 * info
df.info는 DataFrame의 전체적인 정보를 보여주게된다.

 * describe()
df.describe() 는 DataFrame에 대한 전체적인 통계정보를 보여주게 된다.


개수, 평균, 표준편차, min, max, 4분위수 ...의 정보를 받게된다.

 

 * sort_values(by = "")
df.sort_values(by = "x1") 와같이 columns에 해당하는 값들을 내림차순 또는 오름차순으로 정렬해준다.

 

이와같이 DataFrame의 데이터들을 활용하여 내가 원하는 정보를 얻을 수 있게된다.

728x90

'Program > 파이썬' 카테고리의 다른 글

[Python] Pandas  (0) 2023.01.17
[Python] 웹 환경 이해  (0) 2023.01.16
[Python] 함수(Function)  (0) 2023.01.09
[Python] 자료형 함수  (0) 2023.01.07
[Python] 반복문 ( for )  (0) 2023.01.07