• 주성분분석(PCA)



개념

주성분분석(PCA;principal component analysis)

  • 해당 데이터의 원래 변수들을 선형변환을 통해 ‘주성분’이라고 불리는, 서로 상관되어 있지 않거나 독립적인 새로운 인공 변수를 구하여 해석하는 분석방법
  • 둘 이상의 서로 상관관계에 있는 변수들을 포함하고 있는 자료인 다변량 자료 분석 방법 중 하나
    • 서로 상관되어있는 변수들 간의 복잡한 구조
    • 차원 단순화
    • 간편하고 이해하기 쉽도록 분석


차원

  • 공간 내에 있는 점 등의 위치를 나타내기 위해 필요한 축의 개수
  • 데이터 분석의 측면 : ‘차원 = 변수의 수’


차원의 저주

  • 변수가 늘어나, 차원이 커지면서 발생하는 문제
    • 변수의 증가 -> 차원의 중가 -> 과적합 발생
  • 차원 축소와 주성분분석의 필요성
    • 차원의 저주로 복잡함 발생
    • 복잡함(과적합 등) 탈피와 시각화의 용이를 위해 상관있는 변수들끼리의 정보 단순화
    • 차원 축소(=차원의 수를 줄이는 것 = 변수의 수를 줄이는 것) 시행
    • 주성분분석은 차원 축소를 위해 모든 변수를 조합하여 해당 데이터를 잘 설명할 수 있는 중요 성분을 가진 새로운 변수를 추출하는 것


선형 변환

  • 여러 변수들 X = (x1, x2, x3, …, xn)을 다음과 같이 가중결합 시킨 형태
  • P차원의 정보를 선형적 개념에서 1차원으로 축소하는 것 size_main


주성분분석 4단계

  • 1) 데이터 특성 파악 - 상관분석을 통한 변수간 상관관계 파악
  • 2) 가중계수 추출 - 공분산 행렬에 대한 고유값 분해 이용
  • 3) 차원 축소 - 상관계수 및 상관행렬
  • 4) 보유 주성분 개수 판정 - 전체변이에 대한 공헌도, 고유값 크기


주성분분석 예시

주성분분석 방법

  • 주성분분석의 문제점 : 측정 단위에 따라 분산이 크게 달라짐
  • 표준화 하는 경우
    • 측정단위가 다른경우
    • 상관행렬로부터 시작하는 주성분분석
  • 표준화 하지 않는 경우
    • 자료의 단위가 동일한 경우
    • 분산공분산 행렬로부터 시작하는 주성분분석
    • 표준화 하지 않는 경우 변수의 단위 그대로, 변동 그래도를 사용하기 때문에 데이터와 모집단의 특성을 잘 드러낼 수 있음


주성분분석의 예시

  • 성별과 연령에 따른 상품의 고객 만족에 대한 주성분분석 size_main


size_main


size_main

  • 공분산행렬을 통해 얻어진 고유값의 합은 8.178로 총 분산의 양과 같음
  • 첫 2개의 고유값는 5.082, 2.458로 이는 각각 전체의 변이의 62.2%(5.082/2.458)과 30.1%(2.458/8.178)를 차지함
    • 첫 2개의 주성분이 전체의 92.3%를 설명할 수 있다는 것을 의미


size_main


  • 성별과 연령에 따른 상품의 고객 만족에 대한 주성분분석 결과

size_main