파이썬(Python)/Basic & Data analyze

[파이썬]내가 가진 파일의 정보 확인용 코드 .info, .dtypes

DA Damla 2023. 3. 6. 00:10

기본적으로 내가 가진 파일의 정보를 알고 싶을 때, 아래 2개의 코드를 사용한다.

df.info()
df.dtypes

 

1. df.info

   info를 사용해서 값을 불러오면 각 컬럼의 이름과 행의 수 그리고 null값 여부를 확인할 수 있다.

      사용용도 : 보유한 데이터셋에 null이 있는지 (결측치가 있는지) 확인할때 주로 사용

                   혹은 각 컬럼명 혹은 컬럼의 순서 등을 한눈에 확인할때 사용하곤 한다.

                   가장 기본적인 코드 임으로 반드시 알고 있을 것!

 

 

2. df.dtypes

   각 컬럼 값이 숫자인지 object(숫자가 아닌 객체)인지 float인지 등과 같은 형식을 알려준다

      사용용도 : 각 컬럼의 형식 string, integer, float, datetime 등을 알 수 있다.

                    각 컬럼의 형식이 무엇인지에 따라서 더하기 빼기와 같은 사칙연산을 통해 기대하는 값을 얻을 수 있기 때문에

                     보유한 데이터의 정체 처리 전 확임 목적에서 해당 코드를 사용할 수 있다

 


+ 특정 컬럼의 형식만 알고 싶은 경우!

   df['알고 싶은 컬럼명'].dtypes

 

++가지고 있는 컬럼의 형식을 바꾸고 싶을 때

# 특정 컬럼의 형식이 숫자가 아닐때, 숫자로 바꾸고 싶다면

df['columns_name'] = pd.to_numeric(df['columns_name'], errors='coerce')

 

# 특정 컬럼의 형식이 날짜 형식이 아닐때, 바꾸고 싶다면

df['columns_name_datetime'] = pd.to_datetime(df['columns_name_datetime'], errors='coerce')

 

* 끝의 errors = 'coerce'는 형식을 바꾸고자 하는 컬럼의 값일 변환할수 없거나 값이 없을 때 해당 칸을 null로 치환하는 코드 이다.