• 분석모델 확장
    • 파생변수
    • 앙상블
      • 배깅
      • 부스팅
      • 랜덤포레스트



파생변수

정의

  • 의도적 정의에 의해 특정 의미를 갖는 변수
  • 사용자가 특정 조건을 만들어 의미를 부여한 변수

개념

  • 주관적
    • 사용자가 의도적 정의를 통해 특정 의미를 부여
    • 논리적 타당성을 갖추지 못한 경우, 분석과 해석에 문제가 생길 수 있음
  • 특정 상황에만 의미 있는 것이 아닌, 대표성이 나타나도록 변수 설계를 해야 함
    • 구분 : 특정 시기나 상황에만 필요한 변수
      • 예 : 2017년 하반기 고객 주요 구매 상품 -> X
    • 구분 : 대표성이 나타나도록 파생변수 생성
      • 예 : 여름철 고객 주요 구매 상품 -> O
  • 세분화, 고객행동 예측, 마케팅 혹은 캠페인 반응 예측에 활용 가능


예시와 활용

파생변수 만들기

  • 변수를 조합하거나, 함수를 적용해 새로운 변수를 만드는 방법
  • 데이터에 포함된 변수로만 분석하는 방법 이외의 방법
    • ex) 구매상품의 다양성, 선호 가격대, 주 구매매장 등 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미부여한 변수
      • 근무시간에 구매가 발생하는 비율 산출
      • 고객별 상품 유형에 따른 구매금액 생성


요약변수

  • 기본 정보를 특정 기준으로 그룹핑하여 요약한 변수
    • 파생변수와 혼동하는 경우가 많음
  • 특성
    • 일반적으로 각 응용분야별로 구축되는 소규모 형태의 데이터 웨어하우스
    • 수집된 정보를 분석에 맞게 종합한 변수
    • 데이터마트에서 가장 기본적인 변수
    • 다수의 모델에 공통으로 사용될 수 있어, 재활용성이 높음
    • 합계, 횟수와 같은 간단한 구조


파생변수 만들기

  • 요약변수 사용 사례

size_main

size_main

  • 파생변수란 사용자가 의미를 부여하여 생성한 변수
    • 생성된 변수가 모집단의 대표성을 나타낼 수 있어야함
  • 파생변수 특성
    • 주관적이므로 논리적 타당성을 갖춰야하며, 분석자의 능력/경험/지식에 따라 변수의 질이 크게 달라짐
    • 특정 조건을 만족하여 세분화/고객행동예측/캠페인 반응 예측 등 행동 예측에 잘 활용됨
  • 파생변수 활용
    • 모델 성능의 향상 방법
      • 주어진 데이터를 가지고, 모델에 맞춰 데이터를 수정하고, 주요 변수에 따라 모델링을 함(일반적인 방법)
      • 데이터의 특성에 대해 이해하고, 분석자의 주관에 따라 파생 변수를 얼마나 잘 생성하느냐에 따라 모델의 성능은 향상됨
      • 주요 변수들로만 분석했을 때는 보이지 않는 특성이 나타나기도 하고, 예상치 못한 효과를 보일 때도 있음



앙상블 기법

개념

  • 앙상블이란 ‘통일, 조화’ 를 나타내는 용어
  • 분석방법으로 주어진 자료로 여러 개의 예측 모델을 학습한 다음, 하나의 최종 예측 모델을 사용하여 정확도를 높이는 기법
  • 많은 기저 학습기들을 합치는 방법
  • 지도학습 기법보다 더 좋은 성능을 내기 위해 고안된 기법
  • 기계학습에서 지도학습 기법 알고리즘
    • 장점 : 정교화, 대규모화되어 예측성능이 매우 뛰어남
    • 단점 : 학습에 시간이 많이 걸림, 과적합으로 인한 오차증가가 동반됨
  • 앙상블 기법
    • 장점 : 성능이 높음
    • 단점 : 모형이 복잡해 설명하기 어려움


size_main


앙상블 기법 사용시 고려사항

size_main


  • 학습기의 선택
    • 학습 알고리즘 차별화 기법 결합시, 베이즈 분류기와 k-최근접 이웃 알고리즘(K-NN), 인공신경망과 서포트 벡터 머신(SVM)을 결합하는 방법과 같이, 서로 다른 접근 방법을 가진 알고리즘을 선택함
    • 모델 선택과 관련된 파라미터의 차별화가 k-NN 분류 알고리즘을 적용하되 k값을 달리하면서 j로 다른 분류기를 여러 개 만들어 사용함
    • 다층 퍼셉트론의 경우 은닉층의 뉴런 수를 달리하면서 여러가지 모델을 만들어 사용함
    • 학습 데이터 차별화 같은 기법 모델을 결합하되, 학습에 사용되는 데이터 집합에 차별을 두어 복수 개의 분류기를 만드는 방법


  • 결합 방법의 선택
    • 병렬적 결합 방법
      • 기법 결합 시, 각각의 분류기로부터 얻어진 결과를 한번에 모두 고려하여 하나의 최종 결과를 얻는 방법
    • 순차적 결합 방법
      • 각 분류기의 결과를 단계별로 나누어, 단계적으로 결합하는 방법
      • 앞단계에 배치된 결과가 뒤에 배치된 분류기의 학습과 분류에 영향을 미침


앙상블기법 종류

size_main


배깅

  • 각 훈련치를 평균하면, 분산을 낮추는 효과가 있음 (배깅은 분산을 낮춰 과적합을 막아줌) size_main
  • Bootstrap : 실측 데이터를 바탕으로 가상의 샘플링을 수행하여 분포를 추정하는 것


  • 최종 모델 생성 과정
    • 1) 주어진 학습자료에서 표본을 무작위로 재추출 하여, 여러개의 Bootstrap을 만듦
    • 2) 만들어진 Bootstrap 자료들 각각에 대해 추출 표본들의 분산을 표본 수로 나눔
    • 3) 분산을 줄일 예측모형을 만듦
    • 4) 그 모형들을 결합하여 최종 모형을 생성함


  • 배깅 알고리즘 size_main


부스팅

  • 제대로 분류되지 않은, 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 것 size_main


  • 부스팅(Boosting) 알고리즘 size_main


  • 부스팅의 학습과정(필터링방식) size_main


  • 부스팅의 적용 size_main


랜덤 포레스트

  • 분산이 큰 의사결정나무의 단점을 통계적 기법으로 극복한 방법
  • 여러개의 의사결정 나무를 만들고, 각각의 나무에, 부트스트랩을 이용해 생성한 데이터셋으로 모델을 구성
    • 편향을 증가시킴으로써, 분산이 큰 의사결정나무의 단점을 완화시킴

size_main

  • 장점
    • 과적합 발생률이 낮아짐
    • 일반 의사결정나무보다 예측력이 높아짐
  • 단점
    • 복잡한 구조로 해석력이 떨어짐