통계 공부

[통계] 기본 용어 정리

DA Damla 2023. 5. 29. 22:45

통계 공부를 위한 기본 용어를 정리하였다. 필요할 때 다시 정의를 복기하기 위함이다. 하기 용어들은 기초 통계 책을 펴먼 가장먼저 나오는 기본적으로 사용되는 용어이며 또한 통계 공부를 하려면 꼭 알아야하는 용어이다.

더보기

<목차>

1) 기본 용어

2) 시각화 방식

3) 평균, 분산, 표준편차 (도수가 있는 경우와 없는 경우)

4) 확률 변수, 확률분포

5) 자료의 종류: 범주형, 양적, 구간형, 비율형자료

6) 확률 분포의 종류 : 이산형, 연속형

1) 기본 용어

1. 변량: 자료의 수치, 즉 데이터의 값을 의미하는 용어

2. 계급 : 변량을 일정한 간격으로 나눈 구간

               계급을 정할 때 변량의 최소, 최대값을 고려하여 나눈다.

3. 도수 : 각 계급에 속하는 변량의 개수

4. 상대 도수: 각 계급에 속하는 변량의 비율


예시: 2학년 1반 학생들의 키 데이터

학생 5명의 키 : 135, 155, 150, 160, 165

 

1. 변량: 각 학생들의 키 값

2. 계급:

     계급1 : 150 미만,

     계급2 : 150 이상 160 미만

     계급3 : 160 이상

3. 도수:

     계급1의 도수 : 1

     계급2의 도수 : 2

     계급3의 도수 : 2

4. 상대 도수

     각 계급에 속하는 변량의 비율 _ 계급 1 : 20% 계급2,3 : 40%

      -> 전체 값을 100개라고 했을 때 각 계급의 변량이 차지하는 비율


2) 시각화 방식

1. 도수분포표: 주어진 자료를 계급에 따라서 나누고 각 계급에 속하는 도수를 조사하는 것

      장점 : 구간별 분포를 한눈에 보기 좋음 & 단점 : 각 변량의 정확한 값을 생략함

2. 히스토그램: 도수분포포를 시각화해서 보는 가장 기본적인 방법


3) 평균, 분산, 표준편차 (도수가 있는 경우와 없는 경우)

1.  평균(mean)

       - 보통은 산술평균을 말함 : 변량의 합을 변량의 수로 나눈 값

참고) 그 외 평균의 종류 _ 기하 평균, 조화 평균이 있음

2. 분산(variance)

     - 변량이 중심(평균)에서 얼마나 떨어져있는지를 보기 위한 통계량

     - 편차(deviation)

        평균값 - 변량 = 편차

    - 편차를 제곱해서 더한 값

3. 표준편차(Standard deviation)

    - 분산의 제곱근

    - 관찰값들이 얼마나 흩어져 있는지를 하나의 수치로 나타내는 통계량

    - 관측된 변량의 스케일을 표준화할 수 있는 좋은 수단이다.


4) 확률 변수, 확률분포

1. 통계의 목적

   - 아직 벌어지지 않은 일을 예측하기 위함

         - 그렇다면 어떻게 표현할 수 있을까?

               => 일어나지 않은 사건에 대한 가능성을 함수로 나타내는 것이 통계이다.

            즉, 사건을 수치로 표현하는 것이 통계이다.

 

2. 확률 변수 일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것

-> 엄밀하게는 사건마다 부여된 확률 값을 변수로 나타낸 것이다.

 

3. 확률 분포 : 확률 변수에서 정의된 사건에 대한 확률의 분포를 함수로 나타낸 것.


5) 자료의 종류: 범주형, 양적, 구간형, 비율형자료

1. 범주형 자료(Categorical)

  - 명목형 자료 : 순서가 없어서 서로 우열 혹은 크기를 비교할 수 없는 자료

  - 순서형 자료 : 크다 작다의 개념이 있는 것 (차크기가 크다 작다, 만족도 조사)

 

2. 양적 자료 (수치로 값을 표현한 것)

  - 이산형 자료 : 뚝뚝 덜어져 있는 나누어져 있는 자료 (동전 10개 던져서 앞면이 나오는 횟수)

  - 연속형 자료 : 실수가 나오는 값 (eg 키, 몸무게) 

 

3. 구간형 자료 : 비교(가능) 비율과 절대값의 의마가 없음

  예시1 기온_ 10도와 30도를 비교 했을 때 값을 비교는 할 수 있지만 30도는 10도보다 3배 높은 것이라고 판단하지 않음 

  예시2 연도 _ 과거와 현재라고 비교는 가능하지만 값이 몇배다 라고 숫자로서 의미를 가지지 않음

 

4. 비율형 자료 :  수치자체가 0을 기준으로 의미를 나타내는 경우


6) 확률 분포의 종류 : 이산형, 연속형

1. 이산형 확률분포

동전을 10개 던져서 앞면나오는 횟수 분포

확률이 균일한 차이로 분포되어 있는 것

 

2. 연속형 확률분포

1시간 평균 버스가 지나가는 횟수

연속형의 경우 정확하게 정수로 떨어지는 경우가 없음으로 계급이 세밀하게 나누어지는 경우