기초통계(3)

< 추측통계학, 상관분석, 상관관계, 상관계수 >

February 29, 2020

추측통계학
상관분석
상관관계
상관계수

추측통계학

관측 데이터(표본)로부터, 그 배경에 있는 모집단의 특성을 추측하는 학문
데이터가 적을 경우에도 분석 결과가 잘못되지 않도록 ‘오차’라는 개념 도입
모수(파라미터;Parameter) : 모집단의 평균이나 분산 등 모집단의 분포 형태를 결정하는 값

기술통계학

기본적으로 준비된 관측 데이터의 특징을 파악하기 때문애 모수 추측은 하지 않는다. (모집단은 의식하지 않는다.)

대표본과 소표본

기술통계학적 방식을 그대로 데이터 수가 적은 소표본에 이용하면 추측의 정도가 낮아지며, 검정 등이 잘못될 가능성이 있다.(소표본의 문제)
명확하게 정해진 것은 없지만 n<30 정도가 작은 표본

오차

소표본의 경우에도 잘못된 결과가 나오지 않도록 오차라는 개념을 도입한 것이 추측통계학
계통오차 : 오차에는 차이의 방향(크다,작다)이 정해져있음
- 원인이나 오차의 크기가 판명되면 제거하거나 수정할 수가 있다. 또한 무작위화나 국소관리에 의해 결과에 대한 악영향을 피할 수 있다.
- 여름에 밖에서 금속 자를 사용해 길이를 관측하면 열로 인해 자가 늘어나 몇 번을 측정하더라도 참값보다 작게 치우쳐서 측정됨
우연 오차 : 정해져 있지 않은 오차
- 제거나 수정은 할 수 없지만, 표본평균의 우연 오차는 표본 크기와 밀접한 관계가 있기 때문에 표준편차로 크기를 평가하거나 반복하여 작게 할 수 있다.
- 계층오차가 없어도 기타 여러 원인(자의 정밀도가 낮은 등)으로 참값과는 상당한 차이가나게 측정될 것

불편추정

참값인 모수와 비교해 큰 쪽에도 작은 쪽에도 치우치지 않는 통계량을 표본에서 추정하는 것을 말한다.
분산에 대해서는 기술통계학에 따른 표본통계량을 자유도로 수정해 사용하지만 평균에 대해서는 표본평균을 그대로 모평균의 불편추정량으로 한다.

통계량의 치우침

기술통계학의 방법으로 통계량을 계산하면 참값은 모수보다도 커지기도 하고 작아지기도 한다.
이런 치우침을 수정한 통계량(불편추정량)을 얻는 것이 불편추정
사실 기술통계학의 방법으로 계산한 분산(표본분산)은 참값(모분산)보다 조금 작아진다.
그 제곱근인 표본표준편차도 모표준편차보다 작아진다.
표본분산 \(S^2\) <= 모분산 \(\sigma^2\)

불편추정 방법

표본분산 \(S^2\) 식의 분모인 n(표본 크기)에서 1을 빼서 값을 조금 작게 함으로써 모분산에 가까이 가게 한다.(불편분산)
n-1을 자유도라고 함(자유도가 반드시 n-1인것은 아님)
표본의 정보만을 사용해, 모수에 대해 치우침이 없도록 추정하는 통계량
평균에 대해서는 모평균보다 커질 것인지 작아질 것인지 모르기 때문에 수정할 수 없어 표본평균을 그대로 불평평균아라고 생각한다.

자유도

통계량 계산에 사용하는 관측 데이터(변수) 중, 자유롭게 값을 취할 수 있는 데이터의 수
표본 크기에서 제약 조건의 수를 뺀 값이 자유도의 크기
자유도를 사용하여 불편추정량이나 검정통계량을 계산
t 분포나 \(x^2\)분포는 1개, F분포는 2개의 자유도로 규정

표본분포(표본통계량의 분포)

개별 관측 데이터뿐 아니라 표본통계량도 확률분포를 따른다.
표본분포의 불규칙한 분포 크기(표본편차)를 표준오차라고 하고, 오차범위를 예측하는데 사용
모집단에서 반복해 무작위로 추출한 표본통계량(표본평균 등)의 확률분포
오차를 평가하기 위해 개별 데이터 값이 아닌 표본통계량의 분포를 생각
표본의 크기가 충분히 커지면 표본평균 \(\bar{x}\)의 분포는 정규분포를 따른다.

표본분산의 분포(sample variance distribution)

표본(불편)분산에 비례하는 통계량으로 변환하면 그 통계량은 자유도가 n-1의 \(x^2\)분포를 따른다.

표준오차(standard error)

표본통계량의 표준편차에 해당하는 것으로, 표본에서 얻은 추정량의 오차(\(\Leftrightarrow\)정밀도)크기를 나타낸다.
예를들면 표본평균의 표준오차는 표준편차를 표본크기의 제곱근으로 나누어 구한다.
표준편차를 자유도의 제곱근으로 나눈 수치이므로 표본 크기가 커지면 표준오차는 작아진다.(정밀도는 올라간다.)

표본비율

모비율(p) : 어떤 성질을 가지는 요소(사람 등)가 모집단에서 차지하는 비율
표본비율(\(\hat{p}\)) : 어떤 성질을 가지는 요소가 표본에서 차지하는 비율
ex) 100명의 모집단(남자:50, 여자:50)에서의 남자에 대한 모비율 0.5, 그 중 표본(남자:4, 여:6)에서의 남자에 대한 표본비율은 0.4인 것.
분자는 이항분포를 따르므로 표본 크기가 큰 (n>=100) 경우에는 모비율을 중심으로 한 정규분포에서 근사적으로 따른다.

표본평균에서 대수의 법칙

표본평균도 표본크기가 많아짐에 따라 참값인 모평균에 가까워진다.
표본평균은 표본크기가 커짐에 따라 다음과 같은 양상을 보인다.
- 1) 참값인 모평균에 가까워진다.(대수의 법칙)
- 2) 모평균과의 차이(우연 오차)가 정규분포에 가까워진다.(증심극한정리)

대수의 법칙

시행을 많이 반복하면 경험적 확률도 이론적 확률애 가까워진다.(시행을 늘리면 이론적 확률인 0.5에 가까워진다.)
표본평균에서 대수의 법칙
- 표본평균도 표본크기가 많아짐에 따라 참값인 모평균에 가까워진다.
- 많은 실험을 해서 데이터를 많이 관측하는 것이 측정의 정밀도를 향상시킨다는 것을(오차를 적게 함) 보증하고 있다.

중심극한정리

개별 데이터의 모집단이 정규분포하지 않아도 거기서 추출한 표본이 충분히(30이상이 기준) 크면 표본평균은 정규분포한다는 것을 보증한다.
대표본에서는 오차의 분포가 평균 0, 분산이 \(\sigma^2\)/n의 정규분포에 가까워진다. 따라서 모집단이 정규분포를 따르지 않더라도 표본이 충분히 크면 표본평균은 정규분포를 따른다.

개념

상관분석, 상관관계

상관분석 : 두 변수 간에 관계가 있는지를 알아보고자 할 떄 실시하는 분석방법
상관관계 : 두 변수(대상)이 서로 관련성이 있다고 추측되는 관계 (한쪽이 증가하면 다른쪽도 증가(혹은 감소)하는 경향이 있을 때, 상관관계가 있다라고 함)

상관계수(Correlation)

상관분석에서 두 변수의 관련된 정도를 나타내주는 값
변수들 간의 상관도가 높아질수록 -> 상관계수(r) 값이 커짐

상관분석의 특징

양의 상관관계 : 하나의 변수가 커질수록 다른 변수도 함께 커지는 경우(지능지수와 성적, 키와 몸무게)
음의 상관관계 : 하나의 변수가 커질수록 다른 변수는 오히려 작아지는 경우(농작물 생산량과 가격, 고도와 기온)
무의 상관관계 : 변수끼리 서로 상관이 없는 경우(스마트폰 이용 시간과 성적, 범죄율과 아이스크림 판매량)

상관계수의 값

-1 <= r <= 1
두 변수의 관련성이 클수록 -> 상관계수는 1에 가까워짐
두 변수의 관련성이 적을수록 -> 상관계수는 0에 가까워짐

상관계수의 분포(정규분포) [p\(\neq\)0의 경우]

모상관계수 p가 0이 아닌 경우, 표본상관계수 r은 기울어진 분포를 따르기 때문에 이대로는 사용할 수 없다.
그러나 피셔의 z변환을 하면 정규분포를 따르기 때문에, 예를들어 모상관계수의 신뢰구간의 추정으로 사용할 수 있게 된다.

상관계수의 분포(t분포) [p=0의 경우]

모상관계수 p가 0, 즉 무상관인 경우, 표본상관계수 r은 스튜던트화해 t분포를 따른다.
상관계수의 검정(무상관 검정)에 이용할 수 있다.

Q.성적과 지능지수와의 상관관계는?

size_main

성적과 지능지수와의 관련성을 알아보기 위한 연구에서 0.83이라는 상관계수가 나옴
상관계수가 ‘0.83’으로 성적과 지능지수는 상관관계가 높다고 할 수 있음

Q.스마트폰 이용시간과 성적과의 상관관계는?

size_main

스마트폰 이용시간과 성적과의 관련성을 알아보기 위한 연구에서 0.04라는 상관계수가 나옴
상관계수는 ‘0.04’로 성적과 스마트폰 이용 시간과는 상관관계가 거의 없다는 사실을 알 수 있음

출처 : 통계 기반 데이터 분석 강의 https://e-koreatech.step.or.kr/page/lms/learning?m1=home%25&course_id=100168%25