기초통계(12) | bokyeoning

size_main

민감도 : 어떤 진단법을 사용했을 때 실제로 이에 해당하는 사람들을 얼마나 잘 찾아내는가 하는 기준
- 1인 케이스에 대해 1이라고 예측한 것
- ex) 메르스 환자를 진찰해서 메르스라고 진단
특이도 : 어떤 진단법을 사용했을 때 실제로 이에 해당되지 않는 사람들을 얼마나 잘 분류하는가 하는 기준
- 0인 케이스에 대해 0이라고 예측한 것
- ex) 메르스 환자가 아닌데 메르스라고 진단

Accuracy : 탐지율(맞게 검출한 비율)
- (TP+TN)/(TP+TN+FP+FN)
- 실제 악성/정상인지 맞게 예측한 비율
Precision : 정확도(P로 검출한 것 중 실제 P의 비율)
- TP/(TP+FP)
- 악성으로 예측한 것 중 실제 악성인 샘플의 비율
Recall : 재현율(실제 P를 P로 예측한 비율)
- TP/(TP+FN)
- 실제 악성 샘풀 중 악성으로 예측한 비율
False Alarm(Fall-out) : 오검출율(실제 N을 P로 예측한 비율)
- FP/(FP+TN)
- 실제 정상 샘플을 악성으로 예측한 비율
TPR(True Positive Rate) = Recall : 예측과 실제 모두 P
- TP/(TP+FN)
- 실제 악성 샘플을 악성으로 예측한 비율
TNR(True Negative Rate) : 예측과 실제 모두 N
- TN/(TN+FP)
- 실제 정상 샘플을 정상으로 예측한 비율
FPR(False Positive Rate) = False Alarm : 실제 N인데 P로 검출
- FP/(FP+TN)
- 실제 정상 샘플을 악성으로 예측한 비율
FNR(False Negative Rate) : 실제 P인데 N으로 검출
- FN/(TP+FN)
- 실제 악성 샘플을 정상으로 예측한 비율

size_main

size_main

민감도(Sensitivity)
- 진양성율(True Positive Rate)
- 실제 양성의 수에서 예측 양성이 어느정도 적합했는지를 보는 비율
- 실제로 양성인 샘플에서 양성이라고 판정된 샘플의 비율
특이도(Specificity)
- 진음성율(True Negative Rate)
- 실제로는 음성인 샘플에서 음성인것으로 판정된 샘플의 비율

적합도는 곡선 아래의 면적으로 판단
1에 가까울수록 좋은 모형이라고 할 수 있음
여러개의 분류모형 중 가장 좋은 모형을 선책하는 기준으로 활용됨
- 곡선 아래의 면적을 선택 기준으로 면적이 가장 넓은 모형을 채택하는 것이 바람직함

size_main

통계 분석 과정상, 당연히 거쳐야하는 과정을 제대로 이행하는지 여부에 중점을 두고 정확성, 안정성, 적합성, 객관성 등의 세부 평가지표에 따라 평가하는 것
세부지표중 평가에 활용할 지표를 통상적 기준에 의해 선택하여 활용함

다중판별분석 : 집단간의 차이를 의미있게 설명해 줄 수 있는 독립변수들을 찾아내고 이들의 선형결합으로 판별식을 만들어내어 분류하고자 하는 대상들이 속하는 집단을 찾아내는 기법
로지스틱 회귀분석 : 독립변수의 선형결합을 이용해 사건의 발생가능성을 예측하는데 사용되는 기법
신경망분석 : 수학적 모델로서 시스템이 상호 연결되어 네트워크를 형성할 때 이를 인간의 신경망처럼 분석하는 기법
사례기반추론 : 과거의 사례를 상기하여 이를 추론에 이용하는 기법
의사결정나무 : 의사결정 규칙을 도표화하여 관심의 대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 계량적 분석기법

적합성(안정성)
- 모형적합도를 판단하기 위한 기준
- 분류기준값, ROC 곡선 등으로 판단
정확성(객관성)
- 모델에 따라 분류된 데이터가 얼마나 정확하게 분류되었는지를 판단하는 지표
- 예측오차, 교차유효성 검사, 컨퓨전 매트릭스(혼동행렬) 등이 사용됨