기초통계(4)

< 신뢰구간, 회귀분석 >

February 29, 2020

신뢰구간
회귀분석

신뢰구간

모수(참값)가 어느 범위 안에 있는지를 확률적으로 보여주는 방법

모평균의 신뢰구간

모집단의 평균이나 분산이 들어가면 예상되는 구간을 표본에서 추정한다.
구간의 폭은 오차의 크기를 나타내므로 한 개의 값으로 나타내는 불편추정(점추정)과는 달리 정밀도를 한눈에 알 수 있다.

구간추정

표본의 통계량으로부터 범위를 지정해 두고 모수를 추정
모평균뿐만 아니라 모비율, 모분산, 모상관계수 등의 구간추정이 있음
폭을 갖게 해서 모수가 들어갈 구간을 보여주면 추정의 정밀도를 알 수 있어서 편리

신뢰계수(신뢰도, 신뢰수준)(confidence coefficient)

추정구간에 모수가 포함되어 있을 확률
추출과 구간추정을 100회 실시한 경우에 모수가 추정구간에 95회정도 들어가는 것을 ‘신뢰계수 95%’ 라고함
신뢰계수는 95%로 하는것이 일반적. 물론 99%쪽이 좋지만, 구간이 너무 넓어지면 추정에 도움이 되지않으므로 주의

(표본평균의 분포는 모수(모평균)을 중심으로 한 정규분포를 따른다.)

대략적인 구간추정 절차
- 절차 1) 모평균 \(\mu\)의 값은 모르므로 실험에서 관측한 표본평균 \(\bar{x}\)를 대신 사용
- 절차 2) 표본평균을 중심으로 거기서 양쪽에 오차를 취해 모평균이 들어갈 구간을 구한다. 오차의 크기는 신뢰계수나 표본 크기에 따라 다르다.

모평균의 신뢰구간(confidence interval for mean)

모분산을 알고 있는 경우에는 정규분포나 z분포를 이용해서 추정할 수 있지만, 모를 경우에는 t분포로 추정하기 때문에 소표본으로는 구간의 폭이 넓어져버린다.

신뢰구간의 폭(confidence interval width)

신뢰구간의 폭은 좁은 쪽이 실용적이지만, 높은 신뢰계수(t분포의 경우에는 소표본인 점도 영향이 있음)로 추정하면 폭은 넓어져버린다.

모비율의 신뢰구간(confidence interval for proportion)

모평균과 마찬가지로 모비율이나 모분산의 구간추정도 할 수 있다.
모비율 추정은 TV시청률, 선거득표율 예측 등 다양한 경우에 이용
대표본의 경우에는 정규분포를 사용해 추정(wald 방법)하지만, 소표본의 경우에는 Agresti와 Coull의 방법을 이용

모비율의 구간추정(정규분포)

평균의 경우와 마찬가지로 관측된 표본비율의 좌우에 표준오차의 1.96배(신뢰계수 95%의 경우)를 취한 구간이 된다.
모표준오차는 모비율p를 모르면 계산할 수 없지만 표본이 매우 큰 경우(n>=100)에는 근사적으로 표본비율 \(\hat{p}\)을 이용하여 계산

모분산의 신뢰구간(confidence interval for variance)

품질의 안정성이 중시되는 품질관리 분야 등에서 사용
표본, 불편분산과 비례하는 통계량이 자유로 n-1의 \(x^2\)분포를 따른다는 점을 이용해서 간접적으로 추정

모분산의 구간추정(\(x^2\)분포)

모분산의 신뢰구간은 표본분산과 불편분산과 비례하는 통계량이 \(x^2\)분포를 따른다는 점을 이용해 간접적으로 추정한다.

모상관계수의 신뢰구간(confidence interval for correlation coefficient)

표본상관계수는 좌우 비대칭 분포를 따르기 때문에 피셔의 z변환을 해서, 이 통계량이 정규분포를 따른다는 점을 이용해 추정

모상관계수의 구간추정(정규분포)

표본상관계수 r에 피셔의 z변환을 한 통계량이 근사적으로 정규분포를 따른다는 점을 이용해서 추정

부트스트랩법

재표본의 통계량 분포로 표본분포를 추정
원래의 표본에서 같은 크기의 재표본을 복원추출법(추출한 값을 되돌린다)으로 많이 만든다. 1000~2000회 정도 만들면 통계량의 값이 안정된다.
소표본의 경우 등 모집단에 확률분포를 가정할수 없어도 모수의 추정을 가능하게 하는 방법
준비한 데이터에서 복원추출을 반복해 많은 재표본을 생성하고, 그 통계량에서 모수를 추정
통계학에서 몬테카를로법(컴퓨터 시뮬레이션)의 하나이지만, 난수가 아닌 실제로 있는 데이터를 사용해 분포를 추정

재표본(리샘플)

원 표본(관측하여 얻은 데이터)은 모집단의 특징을 갖고 있을 것
그렇다면 원래 표본에서 추출한 새로운 표본(재표본)도, 모집단의 특징을 가지고 있을 것.

개념

회귀분석

독립변수가 종속변수에 영향을 미치는 확인하기 위해 실시하는 분석방법
독립변수와 종속변수 사이에 인과관계가 존재할 떄, 그 관계의 정도를 분석하고 통계적 유의성을 검증하는 것
회귀분석의 4단계
- 1단계 : 선형회귀식 도출(최소제곱법, 회귀선)
- 2단계 : 회귀식의 설명령(피어슨 상관계수, 회귀선의 기울기, 결정계수 \(R^2\), 수정된 \(R^2\))
- 3단계 : 회귀분석에 대한 가정
- 4단계 : 선형회귀분석과의 비교(T검정, F검정)

최소제곱법

관측점들과 회귀선간의 수직거리(잔차)를 제곱하여 각각 더한 값
각각의 관측값들에서 추정된 직선까지의 거리 제곱합이 최소가 되도록 회귀계수를 구하는 것
회귀선 : 흩어진 데이터 점들에 가장 적합한 선

size_main

회귀선이 변수간 관계를 얼마나 잘 설명하는지에 대한 지표
- 피어슨 상관계수 : 상관계수의 절대값이 1에 가까울수록 회귀식 구성 변수가 강한 선형관계를 갖는다는 것을 의미함
- 회귀선의 기울기 : 두 변수 간의 선형적 관련성을 나타냄
- 결정계수(\(R^2\)) : 종속변수의 분산 가운데 회귀식에 의해 설명되는 비율로 추정된 회귀선이 관측값들을 얼마나 잘 설명하고 있는지를 나타내는 척도
- 수정된 \(R^2\) : 동일한 모집단으로부터 수집된 다른 표본의 데이터를 현재의 회귀식으로 설명할 수 있는 정도

회귀분석의 특성

회귀방정식

회귀분석에서 독립변수가 종속변수에 미치는 영향에 대해 나타내는 것
Y = a + bX + \(\varepsilon\)
- Y : 종속변수
- a : 절편(x=0알때의 값)
- b : 기울기(회귀계수)
- x : 독립변수
- \(\mathcal{E}\) : X와 y의 관계로 설명이 안되는 값들

회귀계수

변수 관련성에 따라 양수(+) 혹은 음수(-)의 형태를 띔
- 하나의 변수가 커질수록 다른 변수도 그에 따라 함께 커지는 경우 양수(+)의 형태를 띄며 독립변수가 증가함에 따라 종속변수도 증가하는 관계
- 하나의 변수가 커질수록 다른 변수는 오히려 점점 작아지는 경우 음수(-)의 형태를 띄며 독랍변수가 증가함에 따라 종속변수는 감소하는 관계

다중회귀분석

둘 이상의 독립변수가 종속변수에 미치는 영향에 대해 나타내는 경우 사용
각 독립변수의 회귀계수는 각각의 변수가 독립적으로 고객만족도(종속변수)에 영향을 주는 크기를 말함
- 직원의 응대 회귀계수 b1 = 12.3
- 매장 인테리어 회귀계수 b2 = 3
- 브랜드 인지도 회귀계수 b3 = 2

회귀분석, 상관분석

회귀분석 : 변수 간의 인과관계 검증
상관분석 : 변수 간의 관계여부를 검증하는 분석법
공통점 : 변수간의 관계성을 검증

출처 : 통계 기반 데이터 분석 강의 https://e-koreatech.step.or.kr/page/lms/learning?m1=home%25&course_id=100168%25
참고 : 통계학 도감(쿠리하라 신이치)