• 로지스틱 회귀분석



개념

로지스틱 회귀분석

  • 선형 회귀 방식을 분류에 적용한 알고리즘
  • 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단으로 나누어진 경우, 개별 관측치들이 어느 집단으로 분류될 수 있는가를 판단하는 분석방법
  • 로지스틱 회귀분석이 필요한 이유
    • 종속변수의 특이성
    • 기존의 회귀계수를 해석하는 방법에 문제가 있음
    • 0도 아닌 1도 아닌 예측값의 문제
  • 회귀가 선형인가 비선형인가는 독립변수가 아닌 가중치 변수가 선형인지 아닌지를 따른다.
  • 로지스틱 회귀분석은 종속변수에 범주형 데이터가 사용됨
    • 이항형(범주가 두 개인 경우; 맞다/틀리다) 종속변수인 경우를 지칭
  • 일종의 분류(classification) 기법으로 볼 수 있음
    • 분석 결과, 데이터가 특정 분류로 나뉘기 떄문
    • 이항형 로지스틱 회귀 분석
      • 종속변수 2개
      • ex) 성공/실패, 업/다운, Yes/No
    • 다항형 로지스틱 회귀 분석
      • 종속변수 3개 이상
      • ex) 맑음, 흐림, 비

로지스틱 회귀 모형

  • 독립변수가 [-\(\infty\), \(\infty\)]의 어느 숫자이든 상관 없이, 종속변수 또는 결과값이 항상 범위 [0,1] 사이에 있도록 하는 모형
  • 오즈비(Odds Ratio)를 Logit으로 변환함으로써 얻어짐
    • 오즈(Odds) : 경마장에서 도박지불률을 정할 때 사용
    • 확률/(1-확률)을 의미
    • 오즈(Odds)와 단순확률(p)은 거의 같음
    • 오즈를 오즈로 나누면 비교가 가능
    • 여기에 log를 붙이면(logit) 더 활용범위가 높아짐
    • logit = log(오즈비) size_main


  • 이항 로지스틱 회귀모형 size_main
    • p : 데이터 각각이 어떤 집단에 속할 확률
    • 1-p : 해당 집단에 속하지 않을 확률


  • 이항 로지스틱 회귀 모형의 로짓 변환 size_main
    • 입력값(독립변수)의 범위가 [-\(\infty\), \(\infty\)]때, 출력값(종속변수)의 범위를 [0,1]로 변환시켜 줌

로지스틱 함수를 이용하여 로지스틱 회귀분석을 하게되면, 독립변수 x가 주어졌을 때, 종속변수의 범위가 [0,1]에 속하게 된다.


  • 이항 로지스틱 회귀 모형의 그래프 size_main
    • 로지스틱 함수는 로짓변환을 통해 생성됨


우도비 검정

  • 우도비 검정 : 최대우도법을 사용한 검정방법
    • 우도(Likelihood) : 주어진 현상이 있을 때, 이 현상이 추출될 가능성을 가장 높게하는 모수측정법(데이터가 주어졌을 때 분포가 얼마나 데이터를 잘 설명하는가)
    • 최대우도법 : 우도가 가장 높은(주어진 독립변수들로부터 종속변수를 가장 잘 예측하는)회귀식을 추정하는 방법
  • 회귀분석의 최소제곱법과 같이 회귀계수의 유의성(=모형의 적합도)을 검정하는데 사용되는 방법

size_main


  • 두 개의 회귀 모형의 비를 계산해서, 두 모형의 우도가 유의한 차이를 보이는지 비교하는 검정 방법 size_main
    • 변수를 하나씩 추가 또는 제거하면서 두 우도의 비를 통해 회귀계수의 유의성을 검정하는 방법
    • 자유도가 1인 카이제곱 분포에 의해 유의확률 p-value를 계산함

size_main


예시

로지스틱 회귀분석 4step

  • 1) 가설설정
    • \(H_{0}\) vs \(H_{1}\)
  • 2) 변수 범주화
    • 0과 1로 이진값 주기
  • 3) 모형 적합도 확인
    • \(x^2\) 우도비 검정
  • 4) 로지스틱 가설검정
    • 승산비(Odds), 유의확률


로지스틱 회귀분석의 사용

  • 독립변수와 이진값(0,1)형태의 종속변수로 구성
  • 종속변수에는 오직 2개의 가능한 값만이 존재한다고 가정
    • 0 : 실패 혹은 없음을 의미
    • 1 : 성공 혹은 존재를 의미
  • 로지스틱 회귀분석의 목적은 독립변수와 종속변수의 관계를 찾음으로써, 새로운 독립변수의 집합이 주어졌을 때, 종속변수의 값을 예측할 수 있음
    • 어떤 설명변수가 연구결과에 영향을 미치는지 파악
    • 특정 설명 변수값을 가진 경우, 연구결과가 나타나게 될 확률 계산
    • 독립변수들을 성격에 따라 특정 집단들로 분류
    • 로지스틱 회귀 계수를 이용한 특정 설명(독립)변수의 승률비(Odds) 계산


선형회귀분석 vs 로지스틱 회귀분석

  • 목적
    • 선형회귀분석 : 연속형 결과 변수값 예측
    • 로지스틱 회귀분석 : 비연속형 결과범주 예측
  • 추정
    • 선형회귀분석 : 최소제곱법
    • 로지스틱 회귀분석 : 최대 우도법
  • 계수 유의성검증
    • 선형회귀분석 : Z 또는 t검증
    • 로지스틱 회귀분석 : \(x^2\) 검증


로지스틱 회귀분석 적용 사례

  • 운전면허필기 공부시간, 도로주행 시간, 도로주행 비용이 운전면허시험 합격 여부에 영향을 미치는가?
    • 독립변수 : 운전면허필기 공부시간, 도로주행 시가느 도로주행 비용
    • 종속변수 : 운전면허시험 합격 여부
  • 가설 설정
    • \(H_{0}\) : 운전면허필기 공부시간, 도로주행 시간, 도로주행 비용이 운전면허시험 합격 여부에 영향을 미치지 않는다. (회귀계수가 0일 것이다.)
    • \(H_{1}\) : 운전면허필기 공부시간, 도로주행 시간, 도로주행 비용이 운전면허시험 합격 여부에 영향을 미친다.


  • 종속변수 범주화 (이진값 변환 -> 0:불합격, 1:합격) size_main


  • 모형 적합도 검정 size_main
    • 유의확률이 0.007이므로 귀무가설을 기각하고, 이 모델은 적합하다고 판정
  • \(H_{0}\) : 모형은 유의하지 않다. - \(H_{0}\) 기각인 경우 모형은 적합하다고 판단됨
  • \(H_{1}\) : 모형은 유의하다.


size_main

  • 세 독립변인 중에서 도로주행비용만 운전면허시험 합격 여부애 유의한 영향을 미침
    • (유의수준 0.05 기준으로 유의확률이 0.05 미만인 항목이기 때문)


size_main

  • 필기공부시간이 1 증가할수록 운전면허시험에 합격할 확률이 1.055% 증가


size_main

  • 도로주행시간이 1 증가할수록 운전면허시험에 합격할 확률은 0.9배가 됨 (유의미한 영향을 끼치지 못하는 변수임)


size_main

  • 도로주행비용이 1 증가할수록 운전면허시험에 합격할 확률이 20.3% 증가


  • 결과해석
    • 필기공부시간과 도로주행시간은 운전면허시험 합격여부에 유의미한 영향을 미치지 못함
    • 도로주행비용은 세 가지 독립변수 중 유일하게 유믜이한 유의확률울 보임
      • 1 증가할 때 마다, 운전면허시험 합격 여부가 20.2% 높아진다고 해석할 수 있음