데이터 분석가 Damla's blog

[Pandas] 판다스 데이터프레임 본문

파이썬(Python)/Basic & Data analyze

[Pandas] 판다스 데이터프레임

DA Damla 2023. 1. 1. 22:32

판다스 데이터프레임은 Dataframe = 2차원표와 Series = 1차원표를 다루는 라이브러리이다!

열이 2개 이상일경우 데이터프레임이라고 칭한다

파이썬에서만 2차원,1차원 표를 다룰 수 있는 것은 아니고 Numpy에서도 다룰 수 있다.

 

행 = index

열 = colums

하나의 데이터가 있고 그 데이터가 무엇이 있는지 알려주는 것이 Label이다.


넘파이는 1차원 왜 고차원도 다룰 수 있음.

그런데 판다스가 필요한 이유? 

라벨을 가지고 있기 때문 -> 라벨이 있어서 더 빠르게 정보를 찾고 계산을 할 수 있다.

 

딕셔너리 구조가 더 편할때가 있고 키값을 이용할 수 있어서 데이터프레임형식의 라이브러리를 사용하는 것!


데이터 살펴보는 명령어 또는 함수

df1 = 데이터프레임 출력

S1 = 첫번째 열을 시리즈 형식으로 출력

df1.sum() = 세로의 합

df1.mean() = 세로의 평균

df1.values = 가운데에 있는 값만 출력 (함수가 아니라서 괄호를 넣지 않음) = 넘파이의 array

df1.indes = 열의 label을 출력

df1.columns 

df1.values > 3  = 넘파이 형식의 출력 값

df1 > 3

s1 > 3

bool ; True, False로 구성된 자료형

 

Tip! 함수가 아니면 빈괄호를 넣지 않아도된다.


데이터 프레임 만드는 방법

1. (초보) 만들어진 데이터프레임 불러오기

pd.read_excel("E00example.xlsx").set_index("이름")

-> 엑셀내에 저장된 데이터프레임을 불러오고. 첫번째 열의 index를 설정하는 함수

 

2. (중급) 데이터프레임 만들기

pd.DataFrame([[3.2.5]. [10.0,2], [2,8,5]]), index = ["사과", "배', "딸기"], columns=["경남", "전남", "충청"]))

 

pd.Series([3,10,6], index =  ["사과", "배', "딸기"])

 

출처_ 엑셀투 파이썬

https://youtu.be/SVjKsvvhWlQ