일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 학생 성적 예측
- 데이터리안
- ridge 회귀
- 데이터리안월간웨비나
- 파이썬기초
- 데이터분석
- 데이터분석가
- 데이터리안웨비나
- kaggle 프로젝트
- 데이터 엔지니어
- 파이썬오류
- 데이터엔지니어
- 회귀분석 프로젝트
- 판다스
- 데이터엔지니어링
- python 데이터 분석
- 데이터 분석가
- 데이터분석기법
- 데이터엔지니어링배우기
- 머신러닝 회귀 모델
- Growth_Hacking
- ml 실전 프로젝트
- 데이터사이언티스트
- 데이터엔지니어링시작하기
- 파이썬
- vader감정분석
- 데이터직무
- Python
- 서비스분석기법
- ai관련 직업
- Today
- Total
데이터 분석가 Damla's blog
[통계] 기본 용어 정리 본문
통계 공부를 위한 기본 용어를 정리하였다. 필요할 때 다시 정의를 복기하기 위함이다. 하기 용어들은 기초 통계 책을 펴먼 가장먼저 나오는 기본적으로 사용되는 용어이며 또한 통계 공부를 하려면 꼭 알아야하는 용어이다.
<목차>
1) 기본 용어
2) 시각화 방식
3) 평균, 분산, 표준편차 (도수가 있는 경우와 없는 경우)
4) 확률 변수, 확률분포
5) 자료의 종류: 범주형, 양적, 구간형, 비율형자료
6) 확률 분포의 종류 : 이산형, 연속형
1) 기본 용어
1. 변량: 자료의 수치, 즉 데이터의 값을 의미하는 용어
2. 계급 : 변량을 일정한 간격으로 나눈 구간
계급을 정할 때 변량의 최소, 최대값을 고려하여 나눈다.
3. 도수 : 각 계급에 속하는 변량의 개수
4. 상대 도수: 각 계급에 속하는 변량의 비율
예시: 2학년 1반 학생들의 키 데이터
학생 5명의 키 : 135, 155, 150, 160, 165
1. 변량: 각 학생들의 키 값
2. 계급:
계급1 : 150 미만,
계급2 : 150 이상 160 미만
계급3 : 160 이상
3. 도수:
계급1의 도수 : 1
계급2의 도수 : 2
계급3의 도수 : 2
4. 상대 도수
각 계급에 속하는 변량의 비율 _ 계급 1 : 20% 계급2,3 : 40%
-> 전체 값을 100개라고 했을 때 각 계급의 변량이 차지하는 비율
2) 시각화 방식
1. 도수분포표: 주어진 자료를 계급에 따라서 나누고 각 계급에 속하는 도수를 조사하는 것
장점 : 구간별 분포를 한눈에 보기 좋음 & 단점 : 각 변량의 정확한 값을 생략함
2. 히스토그램: 도수분포포를 시각화해서 보는 가장 기본적인 방법
3) 평균, 분산, 표준편차 (도수가 있는 경우와 없는 경우)
1. 평균(mean)
- 보통은 산술평균을 말함 : 변량의 합을 변량의 수로 나눈 값
참고) 그 외 평균의 종류 _ 기하 평균, 조화 평균이 있음
2. 분산(variance)
- 변량이 중심(평균)에서 얼마나 떨어져있는지를 보기 위한 통계량
- 편차(deviation)
평균값 - 변량 = 편차
- 편차를 제곱해서 더한 값
3. 표준편차(Standard deviation)
- 분산의 제곱근
- 관찰값들이 얼마나 흩어져 있는지를 하나의 수치로 나타내는 통계량
- 관측된 변량의 스케일을 표준화할 수 있는 좋은 수단이다.
4) 확률 변수, 확률분포
1. 통계의 목적
- 아직 벌어지지 않은 일을 예측하기 위함
- 그렇다면 어떻게 표현할 수 있을까?
=> 일어나지 않은 사건에 대한 가능성을 함수로 나타내는 것이 통계이다.
즉, 사건을 수치로 표현하는 것이 통계이다.
2. 확률 변수 : 일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것
-> 엄밀하게는 사건마다 부여된 확률 값을 변수로 나타낸 것이다.
3. 확률 분포 : 확률 변수에서 정의된 사건에 대한 확률의 분포를 함수로 나타낸 것.
5) 자료의 종류: 범주형, 양적, 구간형, 비율형자료
1. 범주형 자료(Categorical)
- 명목형 자료 : 순서가 없어서 서로 우열 혹은 크기를 비교할 수 없는 자료
- 순서형 자료 : 크다 작다의 개념이 있는 것 (차크기가 크다 작다, 만족도 조사)
2. 양적 자료 (수치로 값을 표현한 것)
- 이산형 자료 : 뚝뚝 덜어져 있는 나누어져 있는 자료 (동전 10개 던져서 앞면이 나오는 횟수)
- 연속형 자료 : 실수가 나오는 값 (eg 키, 몸무게)
3. 구간형 자료 : 비교(가능) 비율과 절대값의 의마가 없음
예시1 기온_ 10도와 30도를 비교 했을 때 값을 비교는 할 수 있지만 30도는 10도보다 3배 높은 것이라고 판단하지 않음
예시2 연도 _ 과거와 현재라고 비교는 가능하지만 값이 몇배다 라고 숫자로서 의미를 가지지 않음
4. 비율형 자료 : 수치자체가 0을 기준으로 의미를 나타내는 경우
6) 확률 분포의 종류 : 이산형, 연속형
1. 이산형 확률분포
동전을 10개 던져서 앞면나오는 횟수 분포
확률이 균일한 차이로 분포되어 있는 것
2. 연속형 확률분포
1시간 평균 버스가 지나가는 횟수
연속형의 경우 정확하게 정수로 떨어지는 경우가 없음으로 계급이 세밀하게 나누어지는 경우
'데이터 분석 지식' 카테고리의 다른 글
[그로스해킹] 그로스해킹 들어는 봤는데 그게 뭐지? (3) | 2025.08.09 |
---|