• 추측통계학
  • 상관분석
  • 상관관계
  • 상관계수



추측통계학

  • 관측 데이터(표본)로부터, 그 배경에 있는 모집단의 특성을 추측하는 학문
  • 데이터가 적을 경우에도 분석 결과가 잘못되지 않도록 ‘오차’라는 개념 도입
  • 모수(파라미터;Parameter) : 모집단의 평균이나 분산 등 모집단의 분포 형태를 결정하는 값


기술통계학

  • 기본적으로 준비된 관측 데이터의 특징을 파악하기 때문애 모수 추측은 하지 않는다. (모집단은 의식하지 않는다.)


대표본과 소표본

  • 기술통계학적 방식을 그대로 데이터 수가 적은 소표본에 이용하면 추측의 정도가 낮아지며, 검정 등이 잘못될 가능성이 있다.(소표본의 문제)
  • 명확하게 정해진 것은 없지만 n<30 정도가 작은 표본


오차

  • 소표본의 경우에도 잘못된 결과가 나오지 않도록 오차라는 개념을 도입한 것이 추측통계학
  • 계통오차 : 오차에는 차이의 방향(크다,작다)이 정해져있음
    • 원인이나 오차의 크기가 판명되면 제거하거나 수정할 수가 있다. 또한 무작위화나 국소관리에 의해 결과에 대한 악영향을 피할 수 있다.
    • 여름에 밖에서 금속 자를 사용해 길이를 관측하면 열로 인해 자가 늘어나 몇 번을 측정하더라도 참값보다 작게 치우쳐서 측정됨
  • 우연 오차 : 정해져 있지 않은 오차
    • 제거나 수정은 할 수 없지만, 표본평균의 우연 오차는 표본 크기와 밀접한 관계가 있기 때문에 표준편차로 크기를 평가하거나 반복하여 작게 할 수 있다.
    • 계층오차가 없어도 기타 여러 원인(자의 정밀도가 낮은 등)으로 참값과는 상당한 차이가나게 측정될 것


불편추정

  • 참값인 모수와 비교해 큰 쪽에도 작은 쪽에도 치우치지 않는 통계량을 표본에서 추정하는 것을 말한다.
  • 분산에 대해서는 기술통계학에 따른 표본통계량을 자유도로 수정해 사용하지만 평균에 대해서는 표본평균을 그대로 모평균의 불편추정량으로 한다.


통계량의 치우침

  • 기술통계학의 방법으로 통계량을 계산하면 참값은 모수보다도 커지기도 하고 작아지기도 한다.
  • 이런 치우침을 수정한 통계량(불편추정량)을 얻는 것이 불편추정
  • 사실 기술통계학의 방법으로 계산한 분산(표본분산)은 참값(모분산)보다 조금 작아진다.
  • 그 제곱근인 표본표준편차도 모표준편차보다 작아진다.
  • 표본분산 \(S^2\) <= 모분산 \(\sigma^2\)


불편추정 방법

  • 표본분산 \(S^2\) 식의 분모인 n(표본 크기)에서 1을 빼서 값을 조금 작게 함으로써 모분산에 가까이 가게 한다.(불편분산)
  • n-1을 자유도라고 함(자유도가 반드시 n-1인것은 아님)
  • 표본의 정보만을 사용해, 모수에 대해 치우침이 없도록 추정하는 통계량
  • 평균에 대해서는 모평균보다 커질 것인지 작아질 것인지 모르기 때문에 수정할 수 없어 표본평균을 그대로 불평평균아라고 생각한다.


자유도

  • 통계량 계산에 사용하는 관측 데이터(변수) 중, 자유롭게 값을 취할 수 있는 데이터의 수
  • 표본 크기에서 제약 조건의 수를 뺀 값이 자유도의 크기
  • 자유도를 사용하여 불편추정량이나 검정통계량을 계산
  • t 분포나 \(x^2\)분포는 1개, F분포는 2개의 자유도로 규정


표본분포(표본통계량의 분포)

  • 개별 관측 데이터뿐 아니라 표본통계량도 확률분포를 따른다.
  • 표본분포의 불규칙한 분포 크기(표본편차)를 표준오차라고 하고, 오차범위를 예측하는데 사용
  • 모집단에서 반복해 무작위로 추출한 표본통계량(표본평균 등)의 확률분포
  • 오차를 평가하기 위해 개별 데이터 값이 아닌 표본통계량의 분포를 생각
  • 표본의 크기가 충분히 커지면 표본평균 \(\bar{x}\)의 분포는 정규분포를 따른다.


표본분산의 분포(sample variance distribution)

  • 표본(불편)분산에 비례하는 통계량으로 변환하면 그 통계량은 자유도가 n-1의 \(x^2\)분포를 따른다.


표준오차(standard error)

  • 표본통계량의 표준편차에 해당하는 것으로, 표본에서 얻은 추정량의 오차(\(\Leftrightarrow\)정밀도)크기를 나타낸다.
  • 예를들면 표본평균의 표준오차는 표준편차를 표본크기의 제곱근으로 나누어 구한다.
  • 표준편차를 자유도의 제곱근으로 나눈 수치이므로 표본 크기가 커지면 표준오차는 작아진다.(정밀도는 올라간다.)


표본비율

  • 모비율(p) : 어떤 성질을 가지는 요소(사람 등)가 모집단에서 차지하는 비율
  • 표본비율(\(\hat{p}\)) : 어떤 성질을 가지는 요소가 표본에서 차지하는 비율
  • ex) 100명의 모집단(남자:50, 여자:50)에서의 남자에 대한 모비율 0.5, 그 중 표본(남자:4, 여:6)에서의 남자에 대한 표본비율은 0.4인 것.
  • 분자는 이항분포를 따르므로 표본 크기가 큰 (n>=100) 경우에는 모비율을 중심으로 한 정규분포에서 근사적으로 따른다.


표본평균에서 대수의 법칙

  • 표본평균도 표본크기가 많아짐에 따라 참값인 모평균에 가까워진다.
  • 표본평균은 표본크기가 커짐에 따라 다음과 같은 양상을 보인다.
    • 1) 참값인 모평균에 가까워진다.(대수의 법칙)
    • 2) 모평균과의 차이(우연 오차)가 정규분포에 가까워진다.(증심극한정리)


대수의 법칙

  • 시행을 많이 반복하면 경험적 확률도 이론적 확률애 가까워진다.(시행을 늘리면 이론적 확률인 0.5에 가까워진다.)
  • 표본평균에서 대수의 법칙
    • 표본평균도 표본크기가 많아짐에 따라 참값인 모평균에 가까워진다.
    • 많은 실험을 해서 데이터를 많이 관측하는 것이 측정의 정밀도를 향상시킨다는 것을(오차를 적게 함) 보증하고 있다.


중심극한정리

  • 개별 데이터의 모집단이 정규분포하지 않아도 거기서 추출한 표본이 충분히(30이상이 기준) 크면 표본평균은 정규분포한다는 것을 보증한다.
  • 대표본에서는 오차의 분포가 평균 0, 분산이 \(\sigma^2\)/n의 정규분포에 가까워진다. 따라서 모집단이 정규분포를 따르지 않더라도 표본이 충분히 크면 표본평균은 정규분포를 따른다.



개념

상관분석, 상관관계

  • 상관분석 : 두 변수 간에 관계가 있는지를 알아보고자 할 떄 실시하는 분석방법
  • 상관관계 : 두 변수(대상)이 서로 관련성이 있다고 추측되는 관계 (한쪽이 증가하면 다른쪽도 증가(혹은 감소)하는 경향이 있을 때, 상관관계가 있다라고 함)


상관계수(Correlation)

  • 상관분석에서 두 변수의 관련된 정도를 나타내주는 값
  • 변수들 간의 상관도가 높아질수록 -> 상관계수(r) 값이 커짐


상관분석의 특징

  • 양의 상관관계 : 하나의 변수가 커질수록 다른 변수도 함께 커지는 경우(지능지수와 성적, 키와 몸무게)
  • 음의 상관관계 : 하나의 변수가 커질수록 다른 변수는 오히려 작아지는 경우(농작물 생산량과 가격, 고도와 기온)
  • 무의 상관관계 : 변수끼리 서로 상관이 없는 경우(스마트폰 이용 시간과 성적, 범죄율과 아이스크림 판매량)


상관계수의 값

  • -1 <= r <= 1
  • 두 변수의 관련성이 클수록 -> 상관계수는 1에 가까워짐
  • 두 변수의 관련성이 적을수록 -> 상관계수는 0에 가까워짐


상관계수의 분포(정규분포) [p\(\neq\)0의 경우]

  • 모상관계수 p가 0이 아닌 경우, 표본상관계수 r은 기울어진 분포를 따르기 때문에 이대로는 사용할 수 없다.
  • 그러나 피셔의 z변환을 하면 정규분포를 따르기 때문에, 예를들어 모상관계수의 신뢰구간의 추정으로 사용할 수 있게 된다.


상관계수의 분포(t분포) [p=0의 경우]

  • 모상관계수 p가 0, 즉 무상관인 경우, 표본상관계수 r은 스튜던트화해 t분포를 따른다.
  • 상관계수의 검정(무상관 검정)에 이용할 수 있다.


Q.성적과 지능지수와의 상관관계는?

size_main

  • 성적과 지능지수와의 관련성을 알아보기 위한 연구에서 0.83이라는 상관계수가 나옴
  • 상관계수가 ‘0.83’으로 성적과 지능지수는 상관관계가 높다고 할 수 있음


Q.스마트폰 이용시간과 성적과의 상관관계는?

size_main

  • 스마트폰 이용시간과 성적과의 관련성을 알아보기 위한 연구에서 0.04라는 상관계수가 나옴
  • 상관계수는 ‘0.04’로 성적과 스마트폰 이용 시간과는 상관관계가 거의 없다는 사실을 알 수 있음