- 로지스틱 회귀분석
개념
로지스틱 회귀분석
- 선형 회귀 방식을 분류에 적용한 알고리즘
- 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단으로 나누어진 경우, 개별 관측치들이 어느 집단으로 분류될 수 있는가를 판단하는 분석방법
- 로지스틱 회귀분석이 필요한 이유
- 종속변수의 특이성
- 기존의 회귀계수를 해석하는 방법에 문제가 있음
- 0도 아닌 1도 아닌 예측값의 문제
- 회귀가 선형인가 비선형인가는 독립변수가 아닌 가중치 변수가 선형인지 아닌지를 따른다.
- 로지스틱 회귀분석은 종속변수에 범주형 데이터가 사용됨
- 이항형(범주가 두 개인 경우; 맞다/틀리다) 종속변수인 경우를 지칭
- 일종의 분류(classification) 기법으로 볼 수 있음
- 분석 결과, 데이터가 특정 분류로 나뉘기 떄문
- 이항형 로지스틱 회귀 분석
- 종속변수 2개
- ex) 성공/실패, 업/다운, Yes/No
- 다항형 로지스틱 회귀 분석
- 종속변수 3개 이상
- ex) 맑음, 흐림, 비
로지스틱 회귀 모형
- 독립변수가 [-\(\infty\), \(\infty\)]의 어느 숫자이든 상관 없이, 종속변수 또는 결과값이 항상 범위 [0,1] 사이에 있도록 하는 모형
- 오즈비(Odds Ratio)를 Logit으로 변환함으로써 얻어짐
- 오즈(Odds) : 경마장에서 도박지불률을 정할 때 사용
- 확률/(1-확률)을 의미
- 오즈(Odds)와 단순확률(p)은 거의 같음
- 오즈를 오즈로 나누면 비교가 가능
- 여기에 log를 붙이면(logit) 더 활용범위가 높아짐
- logit = log(오즈비)
- 이항 로지스틱 회귀모형
- p : 데이터 각각이 어떤 집단에 속할 확률
- 1-p : 해당 집단에 속하지 않을 확률
- 이항 로지스틱 회귀 모형의 로짓 변환
- 입력값(독립변수)의 범위가 [-\(\infty\), \(\infty\)]때, 출력값(종속변수)의 범위를 [0,1]로 변환시켜 줌
로지스틱 함수를 이용하여 로지스틱 회귀분석을 하게되면, 독립변수 x가 주어졌을 때, 종속변수의 범위가 [0,1]에 속하게 된다.
- 이항 로지스틱 회귀 모형의 그래프
- 로지스틱 함수는 로짓변환을 통해 생성됨
우도비 검정
- 우도비 검정 : 최대우도법을 사용한 검정방법
- 우도(Likelihood) : 주어진 현상이 있을 때, 이 현상이 추출될 가능성을 가장 높게하는 모수측정법(데이터가 주어졌을 때 분포가 얼마나 데이터를 잘 설명하는가)
- 최대우도법 : 우도가 가장 높은(주어진 독립변수들로부터 종속변수를 가장 잘 예측하는)회귀식을 추정하는 방법
- 회귀분석의 최소제곱법과 같이 회귀계수의 유의성(=모형의 적합도)을 검정하는데 사용되는 방법
- 두 개의 회귀 모형의 비를 계산해서, 두 모형의 우도가 유의한 차이를 보이는지 비교하는 검정 방법
- 변수를 하나씩 추가 또는 제거하면서 두 우도의 비를 통해 회귀계수의 유의성을 검정하는 방법
- 자유도가 1인 카이제곱 분포에 의해 유의확률 p-value를 계산함
예시
로지스틱 회귀분석 4step
- 1) 가설설정
- \(H_{0}\) vs \(H_{1}\)
- 2) 변수 범주화
- 0과 1로 이진값 주기
- 3) 모형 적합도 확인
- \(x^2\) 우도비 검정
- 4) 로지스틱 가설검정
- 승산비(Odds), 유의확률
로지스틱 회귀분석의 사용
- 독립변수와 이진값(0,1)형태의 종속변수로 구성
- 종속변수에는 오직 2개의 가능한 값만이 존재한다고 가정
- 0 : 실패 혹은 없음을 의미
- 1 : 성공 혹은 존재를 의미
- 로지스틱 회귀분석의 목적은 독립변수와 종속변수의 관계를 찾음으로써, 새로운 독립변수의 집합이 주어졌을 때, 종속변수의 값을 예측할 수 있음
- 어떤 설명변수가 연구결과에 영향을 미치는지 파악
- 특정 설명 변수값을 가진 경우, 연구결과가 나타나게 될 확률 계산
- 독립변수들을 성격에 따라 특정 집단들로 분류
- 로지스틱 회귀 계수를 이용한 특정 설명(독립)변수의 승률비(Odds) 계산
선형회귀분석 vs 로지스틱 회귀분석
- 목적
- 선형회귀분석 : 연속형 결과 변수값 예측
- 로지스틱 회귀분석 : 비연속형 결과범주 예측
- 추정
- 선형회귀분석 : 최소제곱법
- 로지스틱 회귀분석 : 최대 우도법
- 계수 유의성검증
- 선형회귀분석 : Z 또는 t검증
- 로지스틱 회귀분석 : \(x^2\) 검증
로지스틱 회귀분석 적용 사례
- 운전면허필기 공부시간, 도로주행 시간, 도로주행 비용이 운전면허시험 합격 여부에 영향을 미치는가?
- 독립변수 : 운전면허필기 공부시간, 도로주행 시가느 도로주행 비용
- 종속변수 : 운전면허시험 합격 여부
- 가설 설정
- \(H_{0}\) : 운전면허필기 공부시간, 도로주행 시간, 도로주행 비용이 운전면허시험 합격 여부에 영향을 미치지 않는다. (회귀계수가 0일 것이다.)
- \(H_{1}\) : 운전면허필기 공부시간, 도로주행 시간, 도로주행 비용이 운전면허시험 합격 여부에 영향을 미친다.
- 종속변수 범주화 (이진값 변환 -> 0:불합격, 1:합격)
- 모형 적합도 검정
- 유의확률이 0.007이므로 귀무가설을 기각하고, 이 모델은 적합하다고 판정
- \(H_{0}\) : 모형은 유의하지 않다. - \(H_{0}\) 기각인 경우 모형은 적합하다고 판단됨
- \(H_{1}\) : 모형은 유의하다.
- 세 독립변인 중에서 도로주행비용만 운전면허시험 합격 여부애 유의한 영향을 미침
- (유의수준 0.05 기준으로 유의확률이 0.05 미만인 항목이기 때문)
- 필기공부시간이 1 증가할수록 운전면허시험에 합격할 확률이 1.055% 증가
- 도로주행시간이 1 증가할수록 운전면허시험에 합격할 확률은 0.9배가 됨 (유의미한 영향을 끼치지 못하는 변수임)
- 도로주행비용이 1 증가할수록 운전면허시험에 합격할 확률이 20.3% 증가
- 결과해석
- 필기공부시간과 도로주행시간은 운전면허시험 합격여부에 유의미한 영향을 미치지 못함
- 도로주행비용은 세 가지 독립변수 중 유일하게 유믜이한 유의확률울 보임
- 1 증가할 때 마다, 운전면허시험 합격 여부가 20.2% 높아진다고 해석할 수 있음
- 출처 : 통계 기반 데이터 분석 강의 https://e-koreatech.step.or.kr/page/lms/learning?m1=home%25&course_id=100168%25
- 참고 : 통알못을 위한 통계튜브