일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터직무
- ai관련 직업
- 데이터분석가
- 판다스
- 데이터엔지니어링시작하기
- 데이터엔지니어
- 데이터엔지니어링배우기
- vader감정분석
- 데이터분석기법
- 회귀분석 프로젝트
- 데이터 분석가
- ridge 회귀
- kaggle 프로젝트
- 데이터리안웨비나
- 학생 성적 예측
- Growth_Hacking
- 데이터분석
- Python
- ml 실전 프로젝트
- 파이썬
- 데이터리안월간웨비나
- 데이터사이언티스트
- 머신러닝 회귀 모델
- 파이썬오류
- 데이터엔지니어링
- 데이터리안
- 데이터 엔지니어
- 서비스분석기법
- 파이썬기초
- python 데이터 분석
- Today
- Total
목록전체 글 (52)
데이터 분석가 Damla's blog

판다스 데이터프레임은 Dataframe = 2차원표와 Series = 1차원표를 다루는 라이브러리이다!열이 2개 이상일경우 데이터프레임이라고 칭한다파이썬에서만 2차원,1차원 표를 다룰 수 있는 것은 아니고 Numpy에서도 다룰 수 있다. 행 = index열 = colums하나의 데이터가 있고 그 데이터가 무엇이 있는지 알려주는 것이 Label이다.넘파이는 1차원 왜 고차원도 다룰 수 있음.그런데 판다스가 필요한 이유? 라벨을 가지고 있기 때문 -> 라벨이 있어서 더 빠르게 정보를 찾고 계산을 할 수 있다. 딕셔너리 구조가 더 편할때가 있고 키값을 이용할 수 있어서 데이터프레임형식의 라이브러리를 사용하는 것!데이터 살펴보는 명령어 또는 함수df1 = 데이터프레임 출력S1 = 첫번째 열을 시리즈 형식으로 출..

- apply 이란?함수를 적용하기 위해서 쓰는 함수로, 데이터프레임이나 시리즈에 바로 적용시킬수 있는 pandas에 없는 다른 함수를 적용할 때 (ex. 파이썬함수) apply가 필요하다 예를 들어 아래와 같은 문제를 해결할 떄 사용할 수 있다.Q) 역순으로 배역해도 똑같은 단어가 되는 5글자 이상의 단어를 맞추어라python함수 len : 문자열이 글자수를 리턴해주는 함수df["글자수'] = df["답안'].apply(len)코딩을 하면 함수를 만들수 있다.내가 만든 함수를 적용할때도 apply를 사용한다1. apply를 왜쓰는지 이해한다2. 데이터프레임과 시리즈에서 apply의 용업의 차이를 이해한다3. 사용자정의 함수를 쓸수 있게된다 df3.info() : 데이터프레임의 속성을 확인하기 - 참..

엑셀에서는 드레그와 ctrl +c 와 v로 가능한데 파이썬에서는 함수를 사용해야함인덱싱과 슬라이싱인덱스(index)자리마다 번호가 정해져있다.1. df["열이름"] : 대괄호 인덱싱은 열밖에 안된다.2. df.loc["행이름", "열이름"]예시, df.iloc[0:3, [1,3,3]] : 좌표로 불러내고 싶을 때 이처럼 숫자를 사용하여 불러낼 수 있다. -> 불러 내고 싶은 컬럼이 있으면 한번더 쓴다4. df.drop("column name", axis = 1) 참고) 첫번째 그림의 경우 [0:2]라면 2의 앞에 있는 것까지 불러온다는 의미이다-> 즉, 0과1의 자리에 있는 것을 불러오는 것이다그런데 세번쨰의 경우 1부터 3까지 끝까지 다 불러올 경우라면 숫자를 안써도 되고 첫번째를 불러올때도 숫..

데이터프레임은 아래와 같은 형태로 구성된 표를 말한다.index는 열에 있는 데이터를 말한다. 라벨 각 컬럼과 인덱스명을 말한다. !pip install pandasimport pandas as pd*함수가 아니면 괄호를 넣지 않아도 된다.df1.indexdf1.columndf1.values 가 numpy array 이다.---df1.sum() 합계df1.mean() 평균 ---출처엑셀투 파이선_파이썬 데이터프레임이란?https://www.youtube.com/watch?v=SVjKsvvhWlQ&t=25s

Step1 : df["column name"] 지정하기 Step2 : df["column name"] = 값으로 열을 수정하거나 생성한다Step3 : drop으로 열을 삭제한다.*drop으로 행과 열 모두 삭제가능하다데이터 프레임은 2차원의 표이고 시리즈는 1차원의 표이다- 데이터 프레임 형식- 시리즈 형식시리즈에는 컬럼이 없음 인덱스(값)만 있음df1["new column"] = 1df1컬럼을 새로 추가 하고 그 값을 1로 지정하면 새로 생성된다.기존에 동일한 이름의 컬럼이 있었다면 그 컬럼의 값이 1로 바뀐다axis = 1 축이 1 = 열axis = 0 축이 0 = 행 - 여러개의 행을 삭제하고 싶다면 리스트 형으로 넣으면 된다.df1.drop(["c1", "c2"], axis = 1)중요! df1의..
파이썬에서 IF문은 Boolean Masking이라고 한다Step1. 조건문을 만든다Step2. 조건문을 적용할 자료를 부르고 Mask함수를 적용한다. 논리연산자and or not관계연산자부등호 == , !=, >, =, 이것을 활용하여 조건을 만들어야 한다df.mask(cond, 참일때의 값).mask(~cond. "거짓일때의 값") Step1. 원하는 파일을 불러오고 그파일의 값을 계산한다.여기서는 "score"컬럼이 Null값인지 확인했다.import pandas as pddf1 = pd.read_excel('filename.xlsx', sheet_name = 1)cond1 = df1["score"].isnull()Step2. 테이블에 컬럼을 하나더 만든다 컬럼을 하나더 만다는것은 df1["컬럼명"..

엑셀로 countif를 하는 것과 sumif를해서 업무를 하는 경우가 많은데 이번에는 이것을 파이썬으로 해보려고한다. 순서는 1. 주어진 데이터를 merge하고 2. 그 데이터의 값을 구하고 3. 그 값을 새로운 형식으로 나타낼 것이다. 1. import pandas as pd df1 = pd.read_excel("파일명.xlsx", sheet_name=1) df1 df2 = pd.read_excel("파일명.xlsx", sheet_name=2) df2 df3=df1.merge(df2, on=["업체", "메뉴"], how='left') df3 이렇게 하면 원하는 값을 불러왔고 이후에 merge까지 했다. *참고) on 뒤에는 두개의 표에서 더하려고 하는 콘텐츠를 리스트형식으로 넣은 것이다. 여기서 잠깐..
엑셀 작업을 하다보면 여러가지 조건을 참고해서 Vlookup기능이 필요한 경우가 있는데 이때 index와 match함수를 섞어서 써야 원하는 값을 얻을 수 있다. 즉, Vlookup한번으로는 원하는 값을 얻기 어렵다. 파이썬을 활용하면 단, 3줄의 코드로 원하는 값을 얻을 수 있다. 심지어 단순 조건을 위한 코드와 동일하다는 사실!!어떤 경우인지 예시로 알아보자여러개의 매장에서 비슷한 종류의 메뉴를 구매할 때여러개의 납품업체에서 동일한 제품을 받아서 쓸 때 이런 기능이 필요하다.납품업체제품명AAVD-100BARG-250AAVS-50납품업체제품명가격AAVD-10010,000BARG-25023,000AAVS-508,000업체가 두개 이상이라면 단순 Vlookup으로는 값을 불러오기가 어렵다.이런 데이터가 만..
파이썬으로 Vlookup하는 것은 가장기본이면서도 꼭 필요하다. 그거 엑셀로 하면되지 뭘 파이썬으로 까지 하느냐고 할 수 있지만 데이터가 2만개가 넘어가고 20만개가 되면 업무가 진행이 되지 않는다.그럴때 필요한 스킬이 파이썬 'merge'이다. 쉽게 배울 수 있는 강의가 있어서 아래에 정리해보려고 한다. 1. 필요한 라이브러리인 pandas를 설치한다.import pandas as pd2. 내가 가지고 있는 파일의 자료를 불러온다. 다른 파일이여도 되지만 같은 엑셀파일의 다른 시트에 있는 내용도 불러올 수 있다.df1 = pd.read_excel("E01EXAMPLE.xlsx", sheet_name=1)df2 = pd.read_excel("E01EXAMPLE.xlsx", sheet_name=2)만약 다..
생각 정리하는 법나는 매일 생각한다. 어제한 행동에 대한 후회부터 시작해서 오늘 일어나지도 않을 일을 걱정하기도 한다. 한번 잘못된 생각을 시작하면 멈추기 어려운 경우도 있다. 이것은 나혼자만의 문제가 아니었다.우리는 하루에 5~7만개의 생각을 하는데 그중에서 부정적인 생각이 80%, 과거에 이미 했던 생각이 95%라고 한다.즉, 우리는 과거에 했던 부정적인 생각을 매일 반복하고 있다는 것이다. 그렇다면 어떻게 해야 좋은 생각을 뽑아낼 수 있을 까? 📌좋은 생각이란? 1. 내 문제를 해결할 수 있는 실마리 2. 내 인생을 더 나은 삶으로 바꿀 수 있는 생각 3. 가치있는 아이디어 📌좋은 생각을 하기위한 5단계 생각정리 프로세스 1단계: 기록 -> 머리로만 기억하면 왜곡되거나 사리지기 때문에 우리는 기..