기초통계(5)
< 분산분석 >
February 29, 2020
개념
- 두 집단 간 속성에 대한 평균 차이를 검증하는 방법으로 사용하는 t검정의 비효율성을 줄이기 위해 집단간 변화량과 집단내 변화량을 비교하는 방법으로 사용하는 F분포에 근거하여 검정
(측정치의 변동을 요인별로 분해하여 어느 요인이 특성치에 어느정도 영향을 주는지 파악하는 것)
분산분석
- 두 개 이상 집단들의 평균을 비교하는 통계분석 기법
- 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증하는 방법
- 관측자료가 몇 개의 그룹으로 구분된 경우 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 데이터 분석방법
분산분석을 사용이유
- 각 집단의 평균이 다르다. = 집단간 평균이 떨어져있어, 분산이 크다. = 집단간 분산이 클수록 집단 간 평균이 서로 다를 가능성이 높다.
- 그러므로 집단 평균 차이 비교에 분산분석 사용
분산분석의 특성
기본 가정
- 정규성 : 각 집단에 해당되는 모집단의 분포가 정규분포임
- 분산동일성 : 각 집단에 해당되는 모집단의 분산은 모두 동일함
- 독립성 : 표본은 각 모집단에서 독립적으로(무작위로) 추출됨
F-value(F통계량)
- 집단간 분산과 집단내 분산의 비
- 계산식 F = \(집단간 분산/집단내 분산\)
- 집단간 분산이 클수록, 집단내 분산이 작을수록 집단평균이 다를 가능성 증가
- 두 종류의 분산이 갖는 값의 상대적 크기에 의해 집단 간 평균의 동일성 여부가 결정됨
분산분석의 구분
- 일원(배치)분산분석(one way ANOVA)
- 요인(집단을 구분하는 독립변수)이 하나인 경우
- 모집단의 수에 제한이 없음
- 각 표본의 수가 같지 않아도 됨
- 이원(배치)분산분석(two way ANOVA)
- 요인(집단을 구분하는 독립변수)이 둘인 경유
- 요인이 2개 이상인 경우, 요인이 결과에 미치는 영향을 알아보기 위한 주효과와 상호작용 효과를 살펴볼 수 있음
- 다원(배치)분산분석(multiple way ANOVA)