기초통계(12)
< 분류모델 >
March 25, 2020
- 분류모델 성능평가
- Confusion Matri(혼동행렬)
- ROC 곡선
- 내부 평가
Confusion Matrix
개념
- 머신러닝 혹은 통계학적 방법이 사용된 분류모델에서, 알고리즘의 성능을 보기 쉽게 시각화하는 테이블 형태의 레이아웃
- 혼동행렬이라고도 함
ROC 곡선
- 특정 진단 방법의 민감도와 특이도가 어떤 관계를 갖고있는지를 표현한 그래프
형태
- 민감도 : 어떤 진단법을 사용했을 때 실제로 이에 해당하는 사람들을 얼마나 잘 찾아내는가 하는 기준
- 1인 케이스에 대해 1이라고 예측한 것
- ex) 메르스 환자를 진찰해서 메르스라고 진단
- 특이도 : 어떤 진단법을 사용했을 때 실제로 이에 해당되지 않는 사람들을 얼마나 잘 분류하는가 하는 기준
- 0인 케이스에 대해 0이라고 예측한 것
- ex) 메르스 환자가 아닌데 메르스라고 진단
Confusion Matrix 주요 성능 지표
- Accuracy : 탐지율(맞게 검출한 비율)
- (TP+TN)/(TP+TN+FP+FN)
- 실제 악성/정상인지 맞게 예측한 비율
- Precision : 정확도(P로 검출한 것 중 실제 P의 비율)
- TP/(TP+FP)
- 악성으로 예측한 것 중 실제 악성인 샘플의 비율
- Recall : 재현율(실제 P를 P로 예측한 비율)
- TP/(TP+FN)
- 실제 악성 샘풀 중 악성으로 예측한 비율
- False Alarm(Fall-out) : 오검출율(실제 N을 P로 예측한 비율)
- FP/(FP+TN)
- 실제 정상 샘플을 악성으로 예측한 비율
- TPR(True Positive Rate) = Recall : 예측과 실제 모두 P
- TP/(TP+FN)
- 실제 악성 샘플을 악성으로 예측한 비율
- TNR(True Negative Rate) : 예측과 실제 모두 N
- TN/(TN+FP)
- 실제 정상 샘플을 정상으로 예측한 비율
- FPR(False Positive Rate) = False Alarm : 실제 N인데 P로 검출
- FP/(FP+TN)
- 실제 정상 샘플을 악성으로 예측한 비율
- FNR(False Negative Rate) : 실제 P인데 N으로 검출
- FN/(TP+FN)
- 실제 악성 샘플을 정상으로 예측한 비율
ROC곡선을 만들려면?
컨퓨전 매트릭스 예시
- 스팸 메일 여부 분류 모델
ROC곡선
- 식별 모델의 성능 평가방법
- 두 개의 범주를 가지고 있는 분류 모형의 성능을 평가하기 위해 쓰는 그래프
- 민감도(Sensitivity)와 특이도(Specificity)를 알아보는데 주로 사용됨
- 2차세계대전 당시 레이더가 감지한 신호를 통해 적함/아군함/단순 잡음인지를 판별하는데 사용함
- 1970년대 이후, 의료와 금융 등 분류가 필요한 분야에 ROC분석이 유용하게 사용됨
민감도와 특이도
- 민감도(Sensitivity)
- 진양성율(True Positive Rate)
- 실제 양성의 수에서 예측 양성이 어느정도 적합했는지를 보는 비율
- 실제로 양성인 샘플에서 양성이라고 판정된 샘플의 비율
- 특이도(Specificity)
- 진음성율(True Negative Rate)
- 실제로는 음성인 샘플에서 음성인것으로 판정된 샘플의 비율
ROC곡선 활용
- 적합도는 곡선 아래의 면적으로 판단
- 1에 가까울수록 좋은 모형이라고 할 수 있음
- 여러개의 분류모형 중 가장 좋은 모형을 선책하는 기준으로 활용됨
- 곡선 아래의 면적을 선택 기준으로 면적이 가장 넓은 모형을 채택하는 것이 바람직함
ROC곡선 모형 적합도 판단 기준
ROC곡선 활용사례
- 신용등급 분류 모델 성능평가
내부평가
분류모델
- 특정 기준(정답)에 의해 분석 대상을 특정 개수의 집단으로 분류하는 예측모형
- 학습된 모델을 통해, 입력된 값을 미리 정해진 결과로 분류해주는 모델
내부평가
- 통계 분석 과정상, 당연히 거쳐야하는 과정을 제대로 이행하는지 여부에 중점을 두고 정확성, 안정성, 적합성, 객관성 등의 세부 평가지표에 따라 평가하는 것
- 세부지표중 평가에 활용할 지표를 통상적 기준에 의해 선택하여 활용함
분류모델 종류
- 다중판별분석 : 집단간의 차이를 의미있게 설명해 줄 수 있는 독립변수들을 찾아내고 이들의 선형결합으로 판별식을 만들어내어 분류하고자 하는 대상들이 속하는 집단을 찾아내는 기법
- 로지스틱 회귀분석 : 독립변수의 선형결합을 이용해 사건의 발생가능성을 예측하는데 사용되는 기법
- 신경망분석 : 수학적 모델로서 시스템이 상호 연결되어 네트워크를 형성할 때 이를 인간의 신경망처럼 분석하는 기법
- 사례기반추론 : 과거의 사례를 상기하여 이를 추론에 이용하는 기법
- 의사결정나무 : 의사결정 규칙을 도표화하여 관심의 대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 계량적 분석기법
내부평가 기준
- 적합성(안정성)
- 모형적합도를 판단하기 위한 기준
- 분류기준값, ROC 곡선 등으로 판단
- 정확성(객관성)
- 모델에 따라 분류된 데이터가 얼마나 정확하게 분류되었는지를 판단하는 지표
- 예측오차, 교차유효성 검사, 컨퓨전 매트릭스(혼동행렬) 등이 사용됨
모델 평가 과정
- 데이터 특성에 따른 분류기법 적용
- 모형생성
- 예측오차, 교차유효성, 혼동행렬 이용 정확도 판단
- 데이터셋 분류를 통한 반복횟수 결정 및 모델 구조화
- Cut-Off Value, ROC 곡선을 통한 적합도 판단
- 최종 모형 설정