[통계학] 통계학의 중요 용어와 기본 개념 (feat. 이건 알아야지)
통계학
통계학은 관찰 및 조사로 얻을 수 있는 데이터로부터, 응용 수학의 기법을 이용해 수치상의 성질, 규칙성, 또는 불규칙성을 찾아낸다. 이러한 통계학을 통해 우리는 데이터의 요약이나 해석을 실시하는 데 있어서의 근거를 제공하고 합리적인 의사결정에 도움을 준다.
모집단과 표본
모집단은 정보를 얻고자 하는 관심 대상의 전체 집합을 말한다. 하지만 이 모든 양의 데이터를 수집하기는 어렵기 때문에 표본(sample)을 추출한다.
모수와 통계량
모집단의 특성을 수치로 나타낸 것을 모수라고 부르며, 표본의 특성을 수치로 나타낸 것을 통계량이라고 부른다. 모집단의 모든 값에 대해 전수 조사를 하는 것이 불가능하고 어려운 경우에는, 표본을 추출하여 표본의 통계량으로 모집단의 모수를 추정한다. 모수는 그리스 문자로 표시, 통계량은 영문자로 표기한다.
변수와 관측값
열 = 변수 : 관측 대상에 따라 데이터가 변할 수 있음.
행 = 각각의 학생의 데이터를 관측한 관측값
통계학의 변수를 다른 용어로 차원이라 부른다. 변수가 늘어날 때마다 차원이 늘어난다고 말할 수 있다.
양적변수와 질적 변수
양적변수 : 크기 , 무게, 점수, 인구 수 , 기온 등 수치로 나타낼 수 있는 변수
- 연속형 변수 : 주어진 범위 내에서 모든 연속적인 값
- 이산형 변수 : 정수값만 취할 수 있는 변수
질적변수 : 성별, 거주지 등 수치로 나타낼 수 없는 변수
측정 수준
측정 수준에 따라 분석 방법이 다르다. 그래서 측정 수준을 정확히 아는 것이 중요하다.
- 명목척도 : 관측 대상의 특성 분류, / 숫자로 크기 X, 사칙연산 X, 정렬 X ex. 성별, 직업, 거주지 분류
- 서열척도, 순서척도 : 크고 작음 등 순서가 표현되는 척도로 정렬 O, 사칙연산 X ex. 등급, 석차
- 등간척도, 구간 척도 : 측정 대상의 순서가 있고, 간격을 알 수 있고, 그 차이를 계산할 수 있는 척도로 차이의 비율은 큰 의미가 없음. ex. 온도, IQ
- 비율척도 : 구간척도의 특징에 추가로 데이터 간 비율 계산도 가능한 척도로 모든 통계분석 가능 ex.무게, 거리, 자녀 수
단순랜덤추출, 계통추출
- 단순랜덤추출 (Simple Randim Sampling) : 모집단 전체 데이터에서 각 데이터가 표본으로 선택될 확률을 동일하게 갖도록 설계하는 표본추출 방법
> 문제점 : 가장 간단하지만 모든 개체가 추출 이전에 확인되어야 하고 표시되어야 하기 때문에 비용이 많이 들고 실현 가능성이 적음
> 유형 : 복원 추출, 비복원 추출
- 계통추출 (Systematic Sampling) : 첫 번째 요소를 무작위로 선정한 후 목록의 매번 k번째 요소를 표본으로 선정하는 표집 방법 (k-표집방법)
> 문제점 : 주기성을 띄고 있다면, 매우 편향된 표본을 얻음
층화추출, 집락추출
- 층화추출(stratified Sampling) : 모집단을 먼저 중복되지 않도록 층으로 나눈 다음 각 층에서 표본 추출하는 방법
> 장점 : 전체 모집단 뿐만 아니라 각 층의 특성에 대해 추정도 가능
> 단순임의 추출, 계통추출 등 다른 추출 방법 사용 가능
> 필요에 따라 각 층을 다시 하위층으로 나누어 추출하는 다단계 층화추출
- 집락추출 (Cluster Sampling) : 임의로 몇 개의 집단을 골라 표본을 임의로 추출
> 층화는 모든 sample , 집락은 몇개의 집단만 선택하여 추출함.
> 모집단이 몇 개의 집단으로 구성되어 있는 경우 사용 가능
> 다단계 표집 방법 : 그 표본에 대하여 다시 집단을 나누고, 그 집단 중 임의로 몇 개의 집단을 선택하는 과정을 몇 단계 거친 후, 마지막으로 선정된 각 집단에서 표본으로 추출하는 방법
- 요약
- 모집단 : 정보를 얻고자 하는 관심 대상의 전체 집합
- 표본 : 모집단의 부분 집합
- 통계량 : 모집단의 특성을 수치고 나타낸 것을 모수라고 부르며, 표본의 특성을 수치로 나타낸 것
- 데이터의 측정 수준에 따라 명목척도, 서열척도, 등간척도, 비율척도로 구분 가능
- 명목척도는 관측 대상의 특성을 분류하는 척도
- 서열척도 또는 순서척도는 크고 작음 등 순서가 표현되는 척도
- 등간척도 또는 구간척도는 측정 대상의 순서뿐만 아니라 순서 사이의 간격을 알 수 있고, 그 차이를 계산할 수 있는 척도
- 비율척도는 구간척도의 특징에 추가로 데이터 간 비율 계산도 가능한 척도