기초통계(3)
< 추측통계학, 상관분석, 상관관계, 상관계수 >
February 29, 2020
추측통계학
- 관측 데이터(표본)로부터, 그 배경에 있는 모집단의 특성을 추측하는 학문
- 데이터가 적을 경우에도 분석 결과가 잘못되지 않도록 ‘오차’라는 개념 도입
- 모수(파라미터;Parameter) : 모집단의 평균이나 분산 등 모집단의 분포 형태를 결정하는 값
기술통계학
- 기본적으로 준비된 관측 데이터의 특징을 파악하기 때문애 모수 추측은 하지 않는다. (모집단은 의식하지 않는다.)
대표본과 소표본
- 기술통계학적 방식을 그대로 데이터 수가 적은 소표본에 이용하면 추측의 정도가 낮아지며, 검정 등이 잘못될 가능성이 있다.(소표본의 문제)
- 명확하게 정해진 것은 없지만 n<30 정도가 작은 표본
오차
- 소표본의 경우에도 잘못된 결과가 나오지 않도록 오차라는 개념을 도입한 것이 추측통계학
- 계통오차 : 오차에는 차이의 방향(크다,작다)이 정해져있음
- 원인이나 오차의 크기가 판명되면 제거하거나 수정할 수가 있다. 또한 무작위화나 국소관리에 의해 결과에 대한 악영향을 피할 수 있다.
- 여름에 밖에서 금속 자를 사용해 길이를 관측하면 열로 인해 자가 늘어나 몇 번을 측정하더라도 참값보다 작게 치우쳐서 측정됨
- 우연 오차 : 정해져 있지 않은 오차
- 제거나 수정은 할 수 없지만, 표본평균의 우연 오차는 표본 크기와 밀접한 관계가 있기 때문에 표준편차로 크기를 평가하거나 반복하여 작게 할 수 있다.
- 계층오차가 없어도 기타 여러 원인(자의 정밀도가 낮은 등)으로 참값과는 상당한 차이가나게 측정될 것
불편추정
- 참값인 모수와 비교해 큰 쪽에도 작은 쪽에도 치우치지 않는 통계량을 표본에서 추정하는 것을 말한다.
- 분산에 대해서는 기술통계학에 따른 표본통계량을 자유도로 수정해 사용하지만 평균에 대해서는 표본평균을 그대로 모평균의 불편추정량으로 한다.
통계량의 치우침
- 기술통계학의 방법으로 통계량을 계산하면 참값은 모수보다도 커지기도 하고 작아지기도 한다.
- 이런 치우침을 수정한 통계량(불편추정량)을 얻는 것이 불편추정
- 사실 기술통계학의 방법으로 계산한 분산(표본분산)은 참값(모분산)보다 조금 작아진다.
- 그 제곱근인 표본표준편차도 모표준편차보다 작아진다.
- 표본분산 \(S^2\) <= 모분산 \(\sigma^2\)
불편추정 방법
- 표본분산 \(S^2\) 식의 분모인 n(표본 크기)에서 1을 빼서 값을 조금 작게 함으로써 모분산에 가까이 가게 한다.(불편분산)
- n-1을 자유도라고 함(자유도가 반드시 n-1인것은 아님)
- 표본의 정보만을 사용해, 모수에 대해 치우침이 없도록 추정하는 통계량
- 평균에 대해서는 모평균보다 커질 것인지 작아질 것인지 모르기 때문에 수정할 수 없어 표본평균을 그대로 불평평균아라고 생각한다.
자유도
- 통계량 계산에 사용하는 관측 데이터(변수) 중, 자유롭게 값을 취할 수 있는 데이터의 수
- 표본 크기에서 제약 조건의 수를 뺀 값이 자유도의 크기
- 자유도를 사용하여 불편추정량이나 검정통계량을 계산
- t 분포나 \(x^2\)분포는 1개, F분포는 2개의 자유도로 규정
표본분포(표본통계량의 분포)
- 개별 관측 데이터뿐 아니라 표본통계량도 확률분포를 따른다.
- 표본분포의 불규칙한 분포 크기(표본편차)를 표준오차라고 하고, 오차범위를 예측하는데 사용
- 모집단에서 반복해 무작위로 추출한 표본통계량(표본평균 등)의 확률분포
- 오차를 평가하기 위해 개별 데이터 값이 아닌 표본통계량의 분포를 생각
- 표본의 크기가 충분히 커지면 표본평균 \(\bar{x}\)의 분포는 정규분포를 따른다.
표본분산의 분포(sample variance distribution)
- 표본(불편)분산에 비례하는 통계량으로 변환하면 그 통계량은 자유도가 n-1의 \(x^2\)분포를 따른다.
표준오차(standard error)
- 표본통계량의 표준편차에 해당하는 것으로, 표본에서 얻은 추정량의 오차(\(\Leftrightarrow\)정밀도)크기를 나타낸다.
- 예를들면 표본평균의 표준오차는 표준편차를 표본크기의 제곱근으로 나누어 구한다.
- 표준편차를 자유도의 제곱근으로 나눈 수치이므로 표본 크기가 커지면 표준오차는 작아진다.(정밀도는 올라간다.)
표본비율
- 모비율(p) : 어떤 성질을 가지는 요소(사람 등)가 모집단에서 차지하는 비율
- 표본비율(\(\hat{p}\)) : 어떤 성질을 가지는 요소가 표본에서 차지하는 비율
- ex) 100명의 모집단(남자:50, 여자:50)에서의 남자에 대한 모비율 0.5, 그 중 표본(남자:4, 여:6)에서의 남자에 대한 표본비율은 0.4인 것.
- 분자는 이항분포를 따르므로 표본 크기가 큰 (n>=100) 경우에는 모비율을 중심으로 한 정규분포에서 근사적으로 따른다.
표본평균에서 대수의 법칙
- 표본평균도 표본크기가 많아짐에 따라 참값인 모평균에 가까워진다.
- 표본평균은 표본크기가 커짐에 따라 다음과 같은 양상을 보인다.
- 1) 참값인 모평균에 가까워진다.(대수의 법칙)
- 2) 모평균과의 차이(우연 오차)가 정규분포에 가까워진다.(증심극한정리)
대수의 법칙
- 시행을 많이 반복하면 경험적 확률도 이론적 확률애 가까워진다.(시행을 늘리면 이론적 확률인 0.5에 가까워진다.)
- 표본평균에서 대수의 법칙
- 표본평균도 표본크기가 많아짐에 따라 참값인 모평균에 가까워진다.
- 많은 실험을 해서 데이터를 많이 관측하는 것이 측정의 정밀도를 향상시킨다는 것을(오차를 적게 함) 보증하고 있다.
중심극한정리
- 개별 데이터의 모집단이 정규분포하지 않아도 거기서 추출한 표본이 충분히(30이상이 기준) 크면 표본평균은 정규분포한다는 것을 보증한다.
- 대표본에서는 오차의 분포가 평균 0, 분산이 \(\sigma^2\)/n의 정규분포에 가까워진다. 따라서 모집단이 정규분포를 따르지 않더라도 표본이 충분히 크면 표본평균은 정규분포를 따른다.
개념
상관분석, 상관관계
- 상관분석 : 두 변수 간에 관계가 있는지를 알아보고자 할 떄 실시하는 분석방법
- 상관관계 : 두 변수(대상)이 서로 관련성이 있다고 추측되는 관계
(한쪽이 증가하면 다른쪽도 증가(혹은 감소)하는 경향이 있을 때, 상관관계가 있다라고 함)
상관계수(Correlation)
- 상관분석에서 두 변수의 관련된 정도를 나타내주는 값
- 변수들 간의 상관도가 높아질수록 -> 상관계수(r) 값이 커짐
상관분석의 특징
- 양의 상관관계 : 하나의 변수가 커질수록 다른 변수도 함께 커지는 경우(지능지수와 성적, 키와 몸무게)
- 음의 상관관계 : 하나의 변수가 커질수록 다른 변수는 오히려 작아지는 경우(농작물 생산량과 가격, 고도와 기온)
- 무의 상관관계 : 변수끼리 서로 상관이 없는 경우(스마트폰 이용 시간과 성적, 범죄율과 아이스크림 판매량)
상관계수의 값
- -1 <= r <= 1
- 두 변수의 관련성이 클수록 -> 상관계수는 1에 가까워짐
- 두 변수의 관련성이 적을수록 -> 상관계수는 0에 가까워짐
상관계수의 분포(정규분포) [p\(\neq\)0의 경우]
- 모상관계수 p가 0이 아닌 경우, 표본상관계수 r은 기울어진 분포를 따르기 때문에 이대로는 사용할 수 없다.
- 그러나 피셔의 z변환을 하면 정규분포를 따르기 때문에, 예를들어 모상관계수의 신뢰구간의 추정으로 사용할 수 있게 된다.
상관계수의 분포(t분포) [p=0의 경우]
- 모상관계수 p가 0, 즉 무상관인 경우, 표본상관계수 r은 스튜던트화해 t분포를 따른다.
- 상관계수의 검정(무상관 검정)에 이용할 수 있다.
Q.성적과 지능지수와의 상관관계는?
- 성적과 지능지수와의 관련성을 알아보기 위한 연구에서 0.83이라는 상관계수가 나옴
- 상관계수가 ‘0.83’으로 성적과 지능지수는 상관관계가 높다고 할 수 있음
Q.스마트폰 이용시간과 성적과의 상관관계는?
- 스마트폰 이용시간과 성적과의 관련성을 알아보기 위한 연구에서 0.04라는 상관계수가 나옴
- 상관계수는 ‘0.04’로 성적과 스마트폰 이용 시간과는 상관관계가 거의 없다는 사실을 알 수 있음