기초통계(10)

< 분석모델 확장 >

March 14, 2020

분석모델 확장
- 파생변수
- 앙상블
  - 배깅
  - 부스팅
  - 랜덤포레스트

파생변수

정의

의도적 정의에 의해 특정 의미를 갖는 변수
사용자가 특정 조건을 만들어 의미를 부여한 변수

개념

주관적
- 사용자가 의도적 정의를 통해 특정 의미를 부여
- 논리적 타당성을 갖추지 못한 경우, 분석과 해석에 문제가 생길 수 있음
특정 상황에만 의미 있는 것이 아닌, 대표성이 나타나도록 변수 설계를 해야 함
- 구분 : 특정 시기나 상황에만 필요한 변수
  - 예 : 2017년 하반기 고객 주요 구매 상품 -> X
- 구분 : 대표성이 나타나도록 파생변수 생성
  - 예 : 여름철 고객 주요 구매 상품 -> O
세분화, 고객행동 예측, 마케팅 혹은 캠페인 반응 예측에 활용 가능

예시와 활용

파생변수 만들기

변수를 조합하거나, 함수를 적용해 새로운 변수를 만드는 방법
데이터에 포함된 변수로만 분석하는 방법 이외의 방법
- ex) 구매상품의 다양성, 선호 가격대, 주 구매매장 등 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미부여한 변수
  - 근무시간에 구매가 발생하는 비율 산출
  - 고객별 상품 유형에 따른 구매금액 생성

요약변수

기본 정보를 특정 기준으로 그룹핑하여 요약한 변수
- 파생변수와 혼동하는 경우가 많음
특성
- 일반적으로 각 응용분야별로 구축되는 소규모 형태의 데이터 웨어하우스
- 수집된 정보를 분석에 맞게 종합한 변수
- 데이터마트에서 가장 기본적인 변수
- 다수의 모델에 공통으로 사용될 수 있어, 재활용성이 높음
- 합계, 횟수와 같은 간단한 구조

파생변수 만들기

요약변수 사용 사례

size_main

size_main

파생변수란 사용자가 의미를 부여하여 생성한 변수
- 생성된 변수가 모집단의 대표성을 나타낼 수 있어야함
파생변수 특성
- 주관적이므로 논리적 타당성을 갖춰야하며, 분석자의 능력/경험/지식에 따라 변수의 질이 크게 달라짐
- 특정 조건을 만족하여 세분화/고객행동예측/캠페인 반응 예측 등 행동 예측에 잘 활용됨
파생변수 활용
- 모델 성능의 향상 방법
  - 주어진 데이터를 가지고, 모델에 맞춰 데이터를 수정하고, 주요 변수에 따라 모델링을 함(일반적인 방법)
  - 데이터의 특성에 대해 이해하고, 분석자의 주관에 따라 파생 변수를 얼마나 잘 생성하느냐에 따라 모델의 성능은 향상됨
  - 주요 변수들로만 분석했을 때는 보이지 않는 특성이 나타나기도 하고, 예상치 못한 효과를 보일 때도 있음

앙상블 기법

개념

앙상블이란 ‘통일, 조화’ 를 나타내는 용어
분석방법으로 주어진 자료로 여러 개의 예측 모델을 학습한 다음, 하나의 최종 예측 모델을 사용하여 정확도를 높이는 기법
많은 기저 학습기들을 합치는 방법
지도학습 기법보다 더 좋은 성능을 내기 위해 고안된 기법
기계학습에서 지도학습 기법 알고리즘
- 장점 : 정교화, 대규모화되어 예측성능이 매우 뛰어남
- 단점 : 학습에 시간이 많이 걸림, 과적합으로 인한 오차증가가 동반됨
앙상블 기법
- 장점 : 성능이 높음
- 단점 : 모형이 복잡해 설명하기 어려움

size_main

앙상블 기법 사용시 고려사항

size_main

학습기의 선택
- 학습 알고리즘 차별화 기법 결합시, 베이즈 분류기와 k-최근접 이웃 알고리즘(K-NN), 인공신경망과 서포트 벡터 머신(SVM)을 결합하는 방법과 같이, 서로 다른 접근 방법을 가진 알고리즘을 선택함
- 모델 선택과 관련된 파라미터의 차별화가 k-NN 분류 알고리즘을 적용하되 k값을 달리하면서 j로 다른 분류기를 여러 개 만들어 사용함
- 다층 퍼셉트론의 경우 은닉층의 뉴런 수를 달리하면서 여러가지 모델을 만들어 사용함
- 학습 데이터 차별화 같은 기법 모델을 결합하되, 학습에 사용되는 데이터 집합에 차별을 두어 복수 개의 분류기를 만드는 방법

결합 방법의 선택
- 병렬적 결합 방법
  - 기법 결합 시, 각각의 분류기로부터 얻어진 결과를 한번에 모두 고려하여 하나의 최종 결과를 얻는 방법
- 순차적 결합 방법
  - 각 분류기의 결과를 단계별로 나누어, 단계적으로 결합하는 방법
  - 앞단계에 배치된 결과가 뒤에 배치된 분류기의 학습과 분류에 영향을 미침

앙상블기법 종류

size_main

배깅

각 훈련치를 평균하면, 분산을 낮추는 효과가 있음 (배깅은 분산을 낮춰 과적합을 막아줌)
Bootstrap : 실측 데이터를 바탕으로 가상의 샘플링을 수행하여 분포를 추정하는 것

최종 모델 생성 과정
- 1) 주어진 학습자료에서 표본을 무작위로 재추출 하여, 여러개의 Bootstrap을 만듦
- 2) 만들어진 Bootstrap 자료들 각각에 대해 추출 표본들의 분산을 표본 수로 나눔
- 3) 분산을 줄일 예측모형을 만듦
- 4) 그 모형들을 결합하여 최종 모형을 생성함

배깅 알고리즘

부스팅

제대로 분류되지 않은, 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 것

부스팅(Boosting) 알고리즘

부스팅의 학습과정(필터링방식)

부스팅의 적용

랜덤 포레스트

분산이 큰 의사결정나무의 단점을 통계적 기법으로 극복한 방법
여러개의 의사결정 나무를 만들고, 각각의 나무에, 부트스트랩을 이용해 생성한 데이터셋으로 모델을 구성
- 편향을 증가시킴으로써, 분산이 큰 의사결정나무의 단점을 완화시킴

size_main

장점
- 과적합 발생률이 낮아짐
- 일반 의사결정나무보다 예측력이 높아짐
단점
- 복잡한 구조로 해석력이 떨어짐

출처 : 통계 기반 데이터 분석 강의 https://e-koreatech.step.or.kr/page/lms/learning?m1=home%25&course_id=100168%25