• 신뢰구간
  • 회귀분석



신뢰구간

  • 모수(참값)가 어느 범위 안에 있는지를 확률적으로 보여주는 방법


모평균의 신뢰구간

  • 모집단의 평균이나 분산이 들어가면 예상되는 구간을 표본에서 추정한다.
  • 구간의 폭은 오차의 크기를 나타내므로 한 개의 값으로 나타내는 불편추정(점추정)과는 달리 정밀도를 한눈에 알 수 있다.


구간추정

  • 표본의 통계량으로부터 범위를 지정해 두고 모수를 추정
  • 모평균뿐만 아니라 모비율, 모분산, 모상관계수 등의 구간추정이 있음
  • 폭을 갖게 해서 모수가 들어갈 구간을 보여주면 추정의 정밀도를 알 수 있어서 편리


신뢰계수(신뢰도, 신뢰수준)(confidence coefficient)

  • 추정구간에 모수가 포함되어 있을 확률
  • 추출과 구간추정을 100회 실시한 경우에 모수가 추정구간에 95회정도 들어가는 것을 ‘신뢰계수 95%’ 라고함
  • 신뢰계수는 95%로 하는것이 일반적. 물론 99%쪽이 좋지만, 구간이 너무 넓어지면 추정에 도움이 되지않으므로 주의

(표본평균의 분포는 모수(모평균)을 중심으로 한 정규분포를 따른다.)


  • 대략적인 구간추정 절차
    • 절차 1) 모평균 \(\mu\)의 값은 모르므로 실험에서 관측한 표본평균 \(\bar{x}\)를 대신 사용
    • 절차 2) 표본평균을 중심으로 거기서 양쪽에 오차를 취해 모평균이 들어갈 구간을 구한다. 오차의 크기는 신뢰계수나 표본 크기에 따라 다르다.


모평균의 신뢰구간(confidence interval for mean)

  • 모분산을 알고 있는 경우에는 정규분포나 z분포를 이용해서 추정할 수 있지만, 모를 경우에는 t분포로 추정하기 때문에 소표본으로는 구간의 폭이 넓어져버린다.


신뢰구간의 폭(confidence interval width)

  • 신뢰구간의 폭은 좁은 쪽이 실용적이지만, 높은 신뢰계수(t분포의 경우에는 소표본인 점도 영향이 있음)로 추정하면 폭은 넓어져버린다.


모비율의 신뢰구간(confidence interval for proportion)

  • 모평균과 마찬가지로 모비율이나 모분산의 구간추정도 할 수 있다.
  • 모비율 추정은 TV시청률, 선거득표율 예측 등 다양한 경우에 이용
  • 대표본의 경우에는 정규분포를 사용해 추정(wald 방법)하지만, 소표본의 경우에는 Agresti와 Coull의 방법을 이용


모비율의 구간추정(정규분포)

  • 평균의 경우와 마찬가지로 관측된 표본비율의 좌우에 표준오차의 1.96배(신뢰계수 95%의 경우)를 취한 구간이 된다.
  • 모표준오차는 모비율p를 모르면 계산할 수 없지만 표본이 매우 큰 경우(n>=100)에는 근사적으로 표본비율 \(\hat{p}\)을 이용하여 계산


모분산의 신뢰구간(confidence interval for variance)

  • 품질의 안정성이 중시되는 품질관리 분야 등에서 사용
  • 표본, 불편분산과 비례하는 통계량이 자유로 n-1의 \(x^2\)분포를 따른다는 점을 이용해서 간접적으로 추정


모분산의 구간추정(\(x^2\)분포)

  • 모분산의 신뢰구간은 표본분산과 불편분산과 비례하는 통계량이 \(x^2\)분포를 따른다는 점을 이용해 간접적으로 추정한다.


모상관계수의 신뢰구간(confidence interval for correlation coefficient)

  • 표본상관계수는 좌우 비대칭 분포를 따르기 때문에 피셔의 z변환을 해서, 이 통계량이 정규분포를 따른다는 점을 이용해 추정


모상관계수의 구간추정(정규분포)

  • 표본상관계수 r에 피셔의 z변환을 한 통계량이 근사적으로 정규분포를 따른다는 점을 이용해서 추정


부트스트랩법

  • 재표본의 통계량 분포로 표본분포를 추정
  • 원래의 표본에서 같은 크기의 재표본을 복원추출법(추출한 값을 되돌린다)으로 많이 만든다. 1000~2000회 정도 만들면 통계량의 값이 안정된다.
  • 소표본의 경우 등 모집단에 확률분포를 가정할수 없어도 모수의 추정을 가능하게 하는 방법
  • 준비한 데이터에서 복원추출을 반복해 많은 재표본을 생성하고, 그 통계량에서 모수를 추정
  • 통계학에서 몬테카를로법(컴퓨터 시뮬레이션)의 하나이지만, 난수가 아닌 실제로 있는 데이터를 사용해 분포를 추정


재표본(리샘플)

  • 원 표본(관측하여 얻은 데이터)은 모집단의 특징을 갖고 있을 것
  • 그렇다면 원래 표본에서 추출한 새로운 표본(재표본)도, 모집단의 특징을 가지고 있을 것.



개념

회귀분석

  • 독립변수가 종속변수에 영향을 미치는 확인하기 위해 실시하는 분석방법
  • 독립변수와 종속변수 사이에 인과관계가 존재할 떄, 그 관계의 정도를 분석하고 통계적 유의성을 검증하는 것
  • 회귀분석의 4단계
    • 1단계 : 선형회귀식 도출(최소제곱법, 회귀선)
    • 2단계 : 회귀식의 설명령(피어슨 상관계수, 회귀선의 기울기, 결정계수 \(R^2\), 수정된 \(R^2\))
    • 3단계 : 회귀분석에 대한 가정
    • 4단계 : 선형회귀분석과의 비교(T검정, F검정)


최소제곱법

  • 관측점들과 회귀선간의 수직거리(잔차)를 제곱하여 각각 더한 값
  • 각각의 관측값들에서 추정된 직선까지의 거리 제곱합이 최소가 되도록 회귀계수를 구하는 것
  • 회귀선 : 흩어진 데이터 점들에 가장 적합한 선

size_main


  • 회귀선이 변수간 관계를 얼마나 잘 설명하는지에 대한 지표
    • 피어슨 상관계수 : 상관계수의 절대값이 1에 가까울수록 회귀식 구성 변수가 강한 선형관계를 갖는다는 것을 의미함
    • 회귀선의 기울기 : 두 변수 간의 선형적 관련성을 나타냄
    • 결정계수(\(R^2\)) : 종속변수의 분산 가운데 회귀식에 의해 설명되는 비율로 추정된 회귀선이 관측값들을 얼마나 잘 설명하고 있는지를 나타내는 척도
    • 수정된 \(R^2\) : 동일한 모집단으로부터 수집된 다른 표본의 데이터를 현재의 회귀식으로 설명할 수 있는 정도



회귀분석의 특성

회귀방정식

  • 회귀분석에서 독립변수가 종속변수에 미치는 영향에 대해 나타내는 것
  • Y = a + bX + \(\varepsilon\)
    • Y : 종속변수
    • a : 절편(x=0알때의 값)
    • b : 기울기(회귀계수)
    • x : 독립변수
    • \(\mathcal{E}\) : X와 y의 관계로 설명이 안되는 값들


회귀계수

  • 변수 관련성에 따라 양수(+) 혹은 음수(-)의 형태를 띔
    • 하나의 변수가 커질수록 다른 변수도 그에 따라 함께 커지는 경우 양수(+)의 형태를 띄며 독립변수가 증가함에 따라 종속변수도 증가하는 관계
    • 하나의 변수가 커질수록 다른 변수는 오히려 점점 작아지는 경우 음수(-)의 형태를 띄며 독랍변수가 증가함에 따라 종속변수는 감소하는 관계


다중회귀분석

  • 둘 이상의 독립변수가 종속변수에 미치는 영향에 대해 나타내는 경우 사용 size_main
  • 각 독립변수의 회귀계수는 각각의 변수가 독립적으로 고객만족도(종속변수)에 영향을 주는 크기를 말함
    • 직원의 응대 회귀계수 b1 = 12.3
    • 매장 인테리어 회귀계수 b2 = 3
    • 브랜드 인지도 회귀계수 b3 = 2


회귀분석, 상관분석

  • 회귀분석 : 변수 간의 인과관계 검증
  • 상관분석 : 변수 간의 관계여부를 검증하는 분석법
  • 공통점 : 변수간의 관계성을 검증