[파이썬]내가 가진 파일의 정보 확인용 코드 .info, .dtypes
기본적으로 내가 가진 파일의 정보를 알고 싶을 때, 아래 2개의 코드를 사용한다.
df.info()
df.dtypes
1. df.info
info를 사용해서 값을 불러오면 각 컬럼의 이름과 행의 수 그리고 null값 여부를 확인할 수 있다.
사용용도 : 보유한 데이터셋에 null이 있는지 (결측치가 있는지) 확인할때 주로 사용
혹은 각 컬럼명 혹은 컬럼의 순서 등을 한눈에 확인할때 사용하곤 한다.
가장 기본적인 코드 임으로 반드시 알고 있을 것!
2. df.dtypes
각 컬럼 값이 숫자인지 object(숫자가 아닌 객체)인지 float인지 등과 같은 형식을 알려준다
사용용도 : 각 컬럼의 형식 string, integer, float, datetime 등을 알 수 있다.
각 컬럼의 형식이 무엇인지에 따라서 더하기 빼기와 같은 사칙연산을 통해 기대하는 값을 얻을 수 있기 때문에
보유한 데이터의 정체 처리 전 확임 목적에서 해당 코드를 사용할 수 있다
+ 특정 컬럼의 형식만 알고 싶은 경우!
df['알고 싶은 컬럼명'].dtypes
++가지고 있는 컬럼의 형식을 바꾸고 싶을 때
# 특정 컬럼의 형식이 숫자가 아닐때, 숫자로 바꾸고 싶다면
df['columns_name'] = pd.to_numeric(df['columns_name'], errors='coerce')
# 특정 컬럼의 형식이 날짜 형식이 아닐때, 바꾸고 싶다면
df['columns_name_datetime'] = pd.to_datetime(df['columns_name_datetime'], errors='coerce')
* 끝의 errors = 'coerce'는 형식을 바꾸고자 하는 컬럼의 값일 변환할수 없거나 값이 없을 때 해당 칸을 null로 치환하는 코드 이다.