일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 학생 성적 예측
- 누적조회수1만명
- 파이썬기초
- 데이터엔지니어
- Python
- python 데이터 분석
- 회귀분석 프로젝트
- 블로그성장일기
- 데이터 분석가
- 데이터엔지니어링배우기
- 데이터리안웨비나
- 데이터엔지니어링
- 데이터리안
- 데이터분석가
- 머신러닝 회귀 모델
- 데이터분석
- 파이썬
- 판다스
- 데이터리안월간웨비나
- 데이터 엔지니어
- 데이터직무
- kaggle 프로젝트
- 데이터엔지니어링시작하기
- ml 실전 프로젝트
- vader감정분석
- 데이터사이언티스트
- 파이썬오류
- 블로그성장글
- ai관련 직업
- ridge 회귀
- Today
- Total
목록파이썬(Python) (26)
데이터 분석가 Damla's blog
부제: Redshift로 데이터 마트 만들고 BI툴과 연동하기 (또는 CSV로 우회한 과정까지)목차프로젝트 목표스타 스키마란?Redshift에서 Fact / Dimension 테이블 만들기무료 BI툴 탐색 및 비교BI툴 연동 실패 및 CSV 대안 사용기마무리하며1. 프로젝트 목표이번 단계에서는 Redshift에 저장된 데이터를 분석 목적에 맞게 재구성(스타 스키마 설계)하고, BI툴로 시각화하는 실습을 진행했다. 목표는 단순 저장된 데이터를 그대로 쓰는 것이 아니라, 분석 및 대시보드 제작에 적합한 형태로 가공 → 시각화까지 이어가는 것이다.2. 스타 스키마란?스타 스키마(Star Schema)는 데이터 마트 설계 시 자주 사용하는 구조로, 중앙에 하나의 Fact Table을 두고 그 주변에 Dimens..
부제: "실무감각으로 익혀보는 Data warehouse 만들어보기 - Redshift 생성하고, S3에서 데이터 옮기기" 목차프로젝트 목표Redshift 개요 및 사용 이유Redshift Serverless 생성하기S3 버킷 생성 및 CSV 파일 업로드Redshift Query Editor로 COPY 실행내가 겪은 오류와 해결 과정마무리하며1. 프로젝트 목표RDS에서 데이터를 다뤄본 다음 단계로, 이제는 데이터 웨어하우스(DW)를 만들었다. 목표는 S3에 저장한 데이터를 Redshift로 옮겨서, 분석/시각화를 위한 기본 데이터 저장소를 만드는 것이다.2. Redshift 개요 및 사용 이유Redshift는 AWS에서 제공하는 컬럼 기반의 데이터 웨어하우스 서비스다.대용량 데이터를 분석하기에 최적화되어..
부제: “실무감각으로 익히는 RDS 기본 조작 실습 - 생성하고, Python으로 CREATE부터 DROP까지" 📂 목차프로젝트 소개 및 사용 도구AWS RDS 구성 개요Python으로 RDS 접속을 위한 네트워크 설정Python에서 RDS 연결하기SQL 기본 명령어 실행문제 발생 시 해결 팁마무리하며1. 프로젝트 소개 및 사용 도구데이터 사이언티스트가 되려면 데이터 엔지니어링 기초인 기본적인 구조와 도구를 이해하고 직접 조작해보는 연습이 필요하다고 생각했다. 그래서 AWS RDS를 통해 실제 DB 인스턴스를 구성하고, Python으로 접속해 SQL을 실행하는 미니 프로젝트를 진행했다. 사용 언어 및 라이브러리 정보:AWS RDS (MySQL)PythonSQL 쿼리 (CREATE, INSERT, DRO..
데이터 엔지니어링은 사실 백엔드와 가까운 영역이다. 데이터 엔지니어는 데이터 관련 직무군이 빅데이터와 함께 급부상할 때, 같이 등장한 직군으로서, 데이터를 사내 구성원이 분석에 활용할 수 있도록 (데이터 분석가, 사이언티스트 포함) 데이터를 끌어다 쉽게 쓸수 있는 파이프라인을 구축하는 직무이다. 백엔드 언어(Python)을 주로 사용해서, 백엔드 직무에서 많이 전향한다고 한다. 나도 데이터 사이언티스트가 목표인 사람으로서, 기본적인 데이터 엔지니어링 이론을 학습하였고 이것을 기록하고자 한다 1. 데이터 엔지니어링 관련 기본서를 읽는다 - 기본서를 읽는 목적은 데이터 엔지니어링의 기본적인 틀을 익히기 위함이다. 세세하게 어떤 툴을 쓰고 툴을 쓰는 방식을 알기 위함이 아니다. - 내가 읽은 기본서는 ..
데이터 분석 입문자, 머신러닝 공부 중인 분들, 그리고 셀프 스터디로 실력을 키우고 싶은 분들께 실무에 가까운 분석 흐름을 소개하고자 작성함. 아래 글에서는 교육 데이터를 활용해 학생 성적 예측 모델을 구축하는 머신러닝 회귀 프로젝트를 진행했으며, 분석 흐름과 예측 성능을 정리했음. 이 프로젝트는 Kaggle의 공개된 교육 데이터를 기반으로 하여, 교육 데이터 분석과 회귀 모델 비교를 실습하고자 하는 학습자에게 좋은 예제가 될 수 있음. 머신러닝 입문 실습을 진행하거나 실무 데이터 분석 예제를 찾는 독자에게도 적합함.✔ 프로젝트 개요주제: 학생의 점심 급식 유형, 학부모 교육 수준 등의 정보를 바탕으로 평균 성적 예측활용 목적: 개인 맞춤형 학습 설계, 등록 절차 간소화 등 서비스 자동화에 활용 가능사..
빅데이터, 텍스트 마이닝(Text Mining), 자연어 처리(NLP), 그리고 감정 분석(Sentiment Analysis) 분야에 관심 있는 분들과 저의 경험을 공유하고자 미니 프로젝트를 진행함. 데이터 분석을 공부하면서, 실제 데이터를 어떻게 활용할 수 있을까와 적은 데이터라도 수집부터 분석, 인사이트 도출까지 전체적인 사이클을 경험하기 위한 목적에서 진행하였음. 아래 분석은 국제 배송대행 서비스인 Delivered Korea의 리뷰 데이터를 수집하여 텍스트 마이닝 기반의 감정 분석을 진행하였으며, 해당 분석은 비정형 데이터 분석, 텍스트 분석(Text Analysis), 셀프 스터디 데이터 분석을 진행하려는 분들이 참고할 수 있을 것. 또한, 이 글은 데이터 분석을 공부하고 있는 분들, 특히 아래..
머신러닝(Machine Learning)과 딥러닝(Deep Learning)을 비교해보았다. 머신러닝은 딥러닝을 포함하는 큰 개념이다. 머신러닝은 Y(결과값)이 숫자 라면 회귀문제이고, 범주(ex. 성공 | 실패)과 같이 구분된 그룹이라면 분류 문제인 것과 같이, 도출하고자 하는 결과값의 특성에 따라 문제를 해결할 모델을 정하기만 하면 된다.반면에 딥러닝은 입력층과 출력층 외에도 그 안의 은닉층(node)의 수, 가중치의 수, 학습 횟수, Learning Rate, 손실함수와 같이 매우 많은 학습 요소들을 모델을 설정하는 작업자가 선택해야한다. 그 외의 요소들을 표로 비교 하면, 아래와 같다구분머신러닝(ML)딥러닝(DL)정의데이터에서 패턴을 학습하여 예측하는 알고리즘들의 결합을 말한다.인공신경(ANN)을..

딥러닝은 결국 "텐서 간의 연산의 값을 비교하는 과정"이라고 볼 수 있다. 그렇기 때문에 딥러닝의 스칼라 부터 텐서를 정리해보았다. 1. 0 ~ 4차원을 나타내는 단어의 정의2. numpy 혹은 Torch로 나타내는 만드는 방법 3. 궁금증 해소 : 3D 텐서를 선언해서 만들면 실제로 어떤 형태일까? 1. 0 ~ 4차원을 나타내는 단어의 정의차원은 행렬의 구성이 한 개일때 부터 여러개이거나 여러개로 쌓여있는 형태를 말한다.Scalar(스칼라) : 0D : 숫자 하나를 나타내는 형태Vector(벡터) : 1D : 행은 여러개 열은 1개인 형태Metrix(메트릭스) : 2D : 행과 열 모두 1개 초과인 형태Tensor(텐서) : 3 ~ nd : 행과 열이 여러개인 것이 여러번 쌓여있는 형태그림으로 이해하기..

1. [기본 정의] 데이터 타입 설명 2. [본문] 비트의 의미와 크기에 따른 장단점1. [기본 정의] 데이터 타입 설명파이썬에서 기본적으로 활용하는 데이터 타입이 있음. 대표적인 타입으로는 아래 4개가 있음 - Boolean (bool) : 논리형 True | False 값으로 나타낸 데이터 형식- String (str) : 문자열 (문자일 경우 따옴표로 데이터 값이 출력됨)- Float (float) : 부동소수점 (Floating point, 소수점이하의 값을 포함한 형태) _ ex) 1.2345687- Integer (int) : 정수형 (integer, 정수형태로 소수점이하 값을 포함하지 않는 형태) _ ex) 12345- Complex(complex) : 복소수 표현 (complex, 실수..

파이썬을 하다보면 가장 기초로 만나게되는 친구들이 리스트, 튜플, 딕셔너리이다. 각각의 정의와 특징, 생성법을 아주 간단하게 작성해 보려고 한다. 작성하는 목적은 나중에 내가 잊었을 때 복기 하기위함이다. 1. List (리스트)생성법 : list_name = [1,2,4,"a","b"]생성할 리스트명 = 대괄호 (Square Brackets)으로 그 안의 데이터를 포함한다.2. tuple (튜플)생성법 : tuple_name = (1,2,6,7,8,"a","E")생성할 튜플명 = 소괄호(Round Brackets)으로 그안의 데이터를 포함한다.[잠깐!] 그렇다면 튜플과 리스트는 무엇이 다른 것일까?리스트는 다양한 파이썬 내장함수들(.isupper, .replace., .capitalize .etc)을 ..