[통계] 기본 용어 정리
통계 공부를 위한 기본 용어를 정리하였다. 필요할 때 다시 정의를 복기하기 위함이다. 하기 용어들은 기초 통계 책을 펴먼 가장먼저 나오는 기본적으로 사용되는 용어이며 또한 통계 공부를 하려면 꼭 알아야하는 용어이다.
<목차>
1) 기본 용어
2) 시각화 방식
3) 평균, 분산, 표준편차 (도수가 있는 경우와 없는 경우)
4) 확률 변수, 확률분포
5) 자료의 종류: 범주형, 양적, 구간형, 비율형자료
6) 확률 분포의 종류 : 이산형, 연속형
1) 기본 용어
1. 변량: 자료의 수치, 즉 데이터의 값을 의미하는 용어
2. 계급 : 변량을 일정한 간격으로 나눈 구간
계급을 정할 때 변량의 최소, 최대값을 고려하여 나눈다.
3. 도수 : 각 계급에 속하는 변량의 개수
4. 상대 도수: 각 계급에 속하는 변량의 비율
예시: 2학년 1반 학생들의 키 데이터
학생 5명의 키 : 135, 155, 150, 160, 165
1. 변량: 각 학생들의 키 값
2. 계급:
계급1 : 150 미만,
계급2 : 150 이상 160 미만
계급3 : 160 이상
3. 도수:
계급1의 도수 : 1
계급2의 도수 : 2
계급3의 도수 : 2
4. 상대 도수
각 계급에 속하는 변량의 비율 _ 계급 1 : 20% 계급2,3 : 40%
-> 전체 값을 100개라고 했을 때 각 계급의 변량이 차지하는 비율
2) 시각화 방식
1. 도수분포표: 주어진 자료를 계급에 따라서 나누고 각 계급에 속하는 도수를 조사하는 것
장점 : 구간별 분포를 한눈에 보기 좋음 & 단점 : 각 변량의 정확한 값을 생략함
2. 히스토그램: 도수분포포를 시각화해서 보는 가장 기본적인 방법
3) 평균, 분산, 표준편차 (도수가 있는 경우와 없는 경우)
1. 평균(mean)
- 보통은 산술평균을 말함 : 변량의 합을 변량의 수로 나눈 값
참고) 그 외 평균의 종류 _ 기하 평균, 조화 평균이 있음
2. 분산(variance)
- 변량이 중심(평균)에서 얼마나 떨어져있는지를 보기 위한 통계량
- 편차(deviation)
평균값 - 변량 = 편차
- 편차를 제곱해서 더한 값
3. 표준편차(Standard deviation)
- 분산의 제곱근
- 관찰값들이 얼마나 흩어져 있는지를 하나의 수치로 나타내는 통계량
- 관측된 변량의 스케일을 표준화할 수 있는 좋은 수단이다.
4) 확률 변수, 확률분포
1. 통계의 목적
- 아직 벌어지지 않은 일을 예측하기 위함
- 그렇다면 어떻게 표현할 수 있을까?
=> 일어나지 않은 사건에 대한 가능성을 함수로 나타내는 것이 통계이다.
즉, 사건을 수치로 표현하는 것이 통계이다.
2. 확률 변수 : 일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것
-> 엄밀하게는 사건마다 부여된 확률 값을 변수로 나타낸 것이다.
3. 확률 분포 : 확률 변수에서 정의된 사건에 대한 확률의 분포를 함수로 나타낸 것.
5) 자료의 종류: 범주형, 양적, 구간형, 비율형자료
1. 범주형 자료(Categorical)
- 명목형 자료 : 순서가 없어서 서로 우열 혹은 크기를 비교할 수 없는 자료
- 순서형 자료 : 크다 작다의 개념이 있는 것 (차크기가 크다 작다, 만족도 조사)
2. 양적 자료 (수치로 값을 표현한 것)
- 이산형 자료 : 뚝뚝 덜어져 있는 나누어져 있는 자료 (동전 10개 던져서 앞면이 나오는 횟수)
- 연속형 자료 : 실수가 나오는 값 (eg 키, 몸무게)
3. 구간형 자료 : 비교(가능) 비율과 절대값의 의마가 없음
예시1 기온_ 10도와 30도를 비교 했을 때 값을 비교는 할 수 있지만 30도는 10도보다 3배 높은 것이라고 판단하지 않음
예시2 연도 _ 과거와 현재라고 비교는 가능하지만 값이 몇배다 라고 숫자로서 의미를 가지지 않음
4. 비율형 자료 : 수치자체가 0을 기준으로 의미를 나타내는 경우
6) 확률 분포의 종류 : 이산형, 연속형
1. 이산형 확률분포
동전을 10개 던져서 앞면나오는 횟수 분포
확률이 균일한 차이로 분포되어 있는 것
2. 연속형 확률분포
1시간 평균 버스가 지나가는 횟수
연속형의 경우 정확하게 정수로 떨어지는 경우가 없음으로 계급이 세밀하게 나누어지는 경우