일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터리안웨비나
- vader감정분석
- 데이터 엔지니어
- kaggle 프로젝트
- 데이터직무
- python 데이터 분석
- 데이터분석기법
- 회귀분석 프로젝트
- ai관련 직업
- 학생 성적 예측
- 머신러닝 회귀 모델
- ridge 회귀
- 서비스분석기법
- 데이터리안
- 데이터사이언티스트
- Python
- 데이터리안월간웨비나
- 데이터분석
- ml 실전 프로젝트
- 데이터엔지니어링
- 데이터분석가
- 데이터 분석가
- 데이터엔지니어링시작하기
- 파이썬
- 데이터엔지니어
- 파이썬오류
- 판다스
- 파이썬기초
- Growth_Hacking
- 데이터엔지니어링배우기
- Today
- Total
목록전체 글 (52)
데이터 분석가 Damla's blog
두번째 번아웃 탈출 방법은 밖으로 나가거나 몸을 움직이는 것이다. 번아웃이 왔을 때 내가 겪은 증상은 1) 나도 모르게 유투브를 보고 있거나, 2) 드라마를 찾아보곤 한다. 번아웃 관련 정보를 찾아보니 내가 겪은 2가지 증상은 번아웃이 온 스스로가 현실에서 벗어나고 싶은 생각에 드라마를 보게 되는 거라고 했다. 그러고보니, 드라마 이야기들은 실제 내 생활과 동떨어진 이야기들이었고, 드라마를 보는 순간만큼은 내 삶의 어려운 점을 잊곤 했다. 드라마를 보지 않고, 잠시 가만히 있을 때나, 드라마가 끝난 후 찾아오는 정적은 다시 내 삶을 생각나게 했고, 그렇게 나는 다시 우울해지거나, 힘이 빠지거나, 가만히 잊거나 다시 다른 드라마를 찾아 나서곤 했다. 본래 번아웃을 겪기 전에는 흔히들 본 2020년 이후 나..
매일 일어나서 지하철에 몸을 싣는다. 늘 비슷한 시간에 출근 준비를 하고 출근을 한다. 퇴근시간은 비슷하거나 늦는다.하루에 내가 목표한 일은 계획을 세우지만 계획만큼 진행하지 못하는 경우가 60~70%가 된다. 그럴때마다. 나는 3시쯤 되면 오늘은 정시에 퇴근을 할 수 있을까 찬찬히 생각을 해본다. 처음 입사 했을 때는 무조건 빨리 끝내는 것이 좋은 거라고 생각해서, 늦게 남아서 일을 했다. 그렇게 일년지나니 번아웃이 찾아왔다. 번아웃은 아주 조용히 천천히 나를 찾아왔다. 어느 순간, 활동적인 일을 하고 싶지 않았고, 그냥 그렇게 가만히 드라마를 보며 주말을 보내고 내가 내 행동을 통제하지 못하는 날이 많아졌다. 그렇게 몇 개월을 지내다, 내가 하고 싶은 행동을 바로 했을때, 기분이 좋다라고 생각을 하기..
나는 최근에 무기력함을 강하게 느끼고 있었다. 하루를 충실히 살아도 무엇인가 맡은 일을 잘해내고 싶다는 생각보다는 이것을 해서 무엇을 하나... 하는 생각만 들고, 더 잘 하고자하는 의욕도 없었다. 하루를 충실히 살아내는 것만으로 충분하다고 누군가 그랬는데, 나는 불만족을 느끼고 있었다. 그런 생각을 하기를 몇일 어느날 내가 느끼고 있는 이 상황이 언젠가 유투브에서 봤던 '소진'된 증상은 아닌가 하는 생각이 들었다. 나는 늘 최선을 다하고자 했고, 열심히 했다. 성실한게 최고라고 생각했고, 누구보다 일찍 출근하고 근면해야한다고 생각했다. 그렇게 나를 불태웠고, 결국 회사 생활 일년 반정도의 기간만에 전부다 불타버린 것이다. 내가 하는 일이 데이터를 다루는 일이라, 늘 정확해야하고 확인했던 조건도 다시 봐..
데이터 분석업무는 기존의 지표들을 바탕으로 의미있는 의사결정을 위한 지표를 제공한다.다시 말하자면, 사내의 모든 데이터를 관리하고 다룰 줄 알며, 많고 많은 데이터 중에서 의미있는 데이터를 정리하고 가공해서 비즈니스에 필요한 수치를 제공하는 역할을 한다. 어느 정도 기반이 닦인 회사라면, 분석은 0에서 시작되지 않는다. 이전에 분석했던 내용, 하물며 다른 팀에서 다루는 데이터를 기반으로 데이터를 정제하고 다루게 된다. 거기서 분석이 시작된다고 볼 수 있다. 우리가 소통해야하는 사람은 데이터를 잘아는 사람일 수도 있고 그렇지 않을 수도 있지만 우리는 늘 우리보다 더 데이터를 잘알고 있는 사람을 대한다고 생각하고 업무에 임해야한다. 그래야 의미있는, 퀄리티가 좋은 분석을 할 수 있으니까. 그래서 더 나은 ..
나는 데이터 분석가이다.직무와는 상관없이 냉정하게 내가하는 업무들을 봤을 때 나는 데이터 분석가의 일을 더 많이 하고 있기 때문에 지금의 나는 스스로를 데이터 분석가로 생각한다. 객관적으로 내가 지금하고 있는 일들을 봤을 때 나는 내가 더 성장할 수 있는 상황 혹은 이대로 유지될 수 있는 상황의 기로에 서있다고 생각한다. 취업을 하기 전에는 취업만 하고 싶었고 취업을 한 후에는 일을 더 잘하고 싶었는데 지금은 일을 잘하는 것을 넘어서 더 나은 역량을 갖추고 업무를 하고 싶어졌다. 전문성을 가질 수록 그 무게도 더 해질 것이라는 것을 안다. 하지만 일의 시작은 사람과 사람이 하는 것이지만 결국 그 일의 규모를 키우려면 기술을 사용해야하듯이 지금의 다양한 경험을 가지고 그 상위의 것을 추구해야 앞으로 변화할..
통계 공부를 위한 기본 용어를 정리하였다. 필요할 때 다시 정의를 복기하기 위함이다. 하기 용어들은 기초 통계 책을 펴먼 가장먼저 나오는 기본적으로 사용되는 용어이며 또한 통계 공부를 하려면 꼭 알아야하는 용어이다.더보기1) 기본 용어2) 시각화 방식3) 평균, 분산, 표준편차 (도수가 있는 경우와 없는 경우)4) 확률 변수, 확률분포5) 자료의 종류: 범주형, 양적, 구간형, 비율형자료6) 확률 분포의 종류 : 이산형, 연속형1) 기본 용어1. 변량: 자료의 수치, 즉 데이터의 값을 의미하는 용어2. 계급 : 변량을 일정한 간격으로 나눈 구간 계급을 정할 때 변량의 최소, 최대값을 고려하여 나눈다.3. 도수 : 각 계급에 속하는 변량의 개수4. 상대 도수: 각 계급에 속하는 변..
기본적으로 내가 가진 파일의 정보를 알고 싶을 때, 아래 2개의 코드를 사용한다.df.info()df.dtypes 1. df.info info를 사용해서 값을 불러오면 각 컬럼의 이름과 행의 수 그리고 null값 여부를 확인할 수 있다. 사용용도 : 보유한 데이터셋에 null이 있는지 (결측치가 있는지) 확인할때 주로 사용 혹은 각 컬럼명 혹은 컬럼의 순서 등을 한눈에 확인할때 사용하곤 한다. 가장 기본적인 코드 임으로 반드시 알고 있을 것! 2. df.dtypes 각 컬럼 값이 숫자인지 object(숫자가 아닌 객체)인지 float인지 등과 같은 형식을 알려준다 사용용도 : 각 컬럼의 형식 string, int..
이전 글에서 데이터와 관련된 대표적인 직무 3개에 대해 이야기했다. 이번에는 데이터 엔지니어가 되려면 필요한 역량 또는 기술에 대해 이야기하려고 한다. 앞서 데이터 엔지니어는 데이터 분석가와 데이터 사이언티스트가 업무를 위해 데이터를 더 쉽고 효율적으로 활용할 수 있도록 데이터 ETL파이프라인을 설계하고 구축하는 역할을 한다고 했었다. 그렇다면 ETL파이프라인은 무엇인가? E(Extract) 데이터를 추출하는 과정 - 기본적으로 사용되는 Excel, csv, json과 같은 형식의 데이터를 받아오거나, - 웹, 앱의 로그를 추출하는 것을 말한다. T(Transform) 데이터를 활용할 수 있는 형식으로 변형하는 것 - Extract 과정으로 데이터를 추출한 이후에 해당 데이터를 정형화된 형식 (열(Col..
데이터 관련한 직무가 새로이 생기고 있고 빅데이터에 대한 관심이 증가하면서 직무에 대한 관심도 증가하고 있다. 그럼에도 불구하고 그 많은 직무가 실제 하는 역할에 대해서 어렴풋이 알고는 있지만 정확하게는 알지 못하는 경우가 더 많을 것이다. 그래서 데이터와 관련된 직무 3가지를 정리해 보았다. 데이터 분석가 (Data Analyst, DA) -> 데이터를 분석, 정리하여 데이터 의사결정을 돕기 위한 정보 전달을 하는 역할 보고서를 만들어서 전달하거나 분석한 내용을 요약 전달하여 의사결정을 돕는다. 데이터 사이언티스트 (Data scientist, Machine/Deep learning Engineer의 역할도 포괄한다, DS) -> 비즈니스 운영에 필요한 문제를 정의하고, 문제를 해결하기 위해 데이터 분..

표 정렬하기 df.sore_value([c1,c2,c3], ascending=bool)sort_value 의 기본 정렬값은오름값으로 정렬됨df.sort_values("c2", ascendlng=Faluse)내림차순으로 정렬시 ascending을 Faluse로 바꾼다 만약, 두개의 조건을 넣고 싶다면? ascending을 리스트 형식으로 넣는다df.sort_values(["c2", "c4"], ascending=[0, 1])ascending 의 값을 리스트형식으로 TRUE혹은 FALUSE를 넣을 수 있다 (아래 숫자를 대신 넣을 수 있음)0 = False1 = True 즉 위 식의 조건은조건1) c2 값을 내림차순으로 정렬하고 조건2) c4 값을 오름차순으로 정렬한다!Broadcasting과 연산1. N..