통계의 기본 P-value 편!
통계 기본에 대해 공부를 하다가 문서로 남겨야 잊어버릴때쯤 다시 볼 수 있을 것 같아서 카테고리를 하나 더 만들었다.
이번 게시글은 통알못을 위한 통계튜브와 논문쓰는남자 영상을 참고했습니다.
어떤 사건이 우연히 발생할 확률이 얼마일까?
P-값이란? (P-value)
P-값은 Probability-value의 줄임말로 즉 확률 값을 뜻하며 어떤 사건이 우연히 발생할 확률을 말한다.
예를 들어, P값이 0.05보다 작다는 것은 어떤 사건이 우연히 일어날 확률이 0.05(5%)보다 작다는 의미다.
우연히 발생할 확률이 5%보다 작다는 것은 이 사건이 우연히 일어났을 가능성이 거의 없다는 것으로 생각할 수 있다. (우연히 발생한 것이 아니라 분명히 인과관계가 있다고 추정하는 것)
만약 P값이 0.05보다 크면 이 사건은 우연히 발생한 것이다라고 생각하고 이 사건에는 어떠한 의미 즉, 인과관계가 없다고 판단하는 것.
\(H_{0} : D_{A-B} = 0\)
\(H_{1} : D_{A-B} \ne 0\)
\(H_{0}\)는 Null Hypothesis의 약자
귀무가설(아무 영향도 없고 아무일도 없다라는 것을 가정하는 가설)을 뜻한다.
\(H_{1}\) 또는 \(H_{a}\)는 Alternative Hypothesis의 약자
대립가설(첫번째의 귀무가설을 대체하는 대립하는 가설)을 뜻한다.
어떤 사건이 우연히 일어날 확률을 구할 때 P값을 사용하는데 만약 여기서 말하는 그 사건이 우연히 일어났다라고 가정하는 것이 귀무가설이고, 그 사건이 우연히 일어난 것이 아니고 뭔가 이유(인과관계)가 있다 라고 가정하는 것이 대립가설이다.
귀무가설이 맞다면 그 사건은 우연히 일어난 것으로 추정, 대립가설이 맞다면 우연히 일어난 것이 아닌 뭔가 이유(인과관계)가 있다고 추정하는 것!
P값의 한계
1) 관측치를 증가시켜, 억지로 유의하게 만들 수 있다. - 분석에 사용되는 데이터가 많을수록 P값이 작아지기 때문에 P값이 0.05보다 작아질 때 까지 데이터를 계속 수집할 수 있다.(이론적으로는 데이터가 무한히 있으면 P값을 0으로 만들 수 있다.)
2) 유의한 P값을 제시하여 눈속임 할수도 있다. - 애초부터 종속변수에 영향을 끼칠 만한 독립변수들을 한꺼번에 조사하여 그것들 중 통계적으로 유의한 결과가 나온 것만 제시할 수 있다.
변수(Variable)란?
: 연구자가 연구하고자 하는 개념
독립변수
- 실험 또는 연구애서 자극을 주는 변수(=원인 변수)
- 어떤 것의 원인이 되는 변수이며 종속변수에 영향을 미침
종속변수
- 자극에 대한 반응이나 결과를 나타내는 변수(=반응변수, 결과변수)
- 독립변수의 영향을 받아 변함
예를들어 ‘A가 B에게 어떠한 변화를 줄 것이다’ 라는 연구가설이 있다.
여기서 원인이 되는 A를 독립변수(=원인변수, 설명변수, 예측변수)라고 한다.
원인에 의해서 결과가 나타나는 B를 종속변수(=결과변수)라고 한다.
ex) 커피가 수면시간에 영향을 줄 것이다.
독립변수 = 커피
종속변수 = 수면시간