기초통계(6)
< 주성분분석(PCA) >
March 3, 2020
개념
주성분분석(PCA;principal component analysis)
- 해당 데이터의 원래 변수들을 선형변환을 통해 ‘주성분’이라고 불리는, 서로 상관되어 있지 않거나 독립적인 새로운 인공 변수를 구하여 해석하는 분석방법
- 둘 이상의 서로 상관관계에 있는 변수들을 포함하고 있는 자료인 다변량 자료 분석 방법 중 하나
- 서로 상관되어있는 변수들 간의 복잡한 구조
- 차원 단순화
- 간편하고 이해하기 쉽도록 분석
차원
- 공간 내에 있는 점 등의 위치를 나타내기 위해 필요한 축의 개수
- 데이터 분석의 측면 : ‘차원 = 변수의 수’
차원의 저주
- 변수가 늘어나, 차원이 커지면서 발생하는 문제
- 변수의 증가 -> 차원의 중가 -> 과적합 발생
- 차원 축소와 주성분분석의 필요성
- 차원의 저주로 복잡함 발생
- 복잡함(과적합 등) 탈피와 시각화의 용이를 위해 상관있는 변수들끼리의 정보 단순화
- 차원 축소(=차원의 수를 줄이는 것 = 변수의 수를 줄이는 것) 시행
- 주성분분석은 차원 축소를 위해 모든 변수를 조합하여 해당 데이터를 잘 설명할 수 있는 중요 성분을 가진 새로운 변수를 추출하는 것
선형 변환
- 여러 변수들 X = (x1, x2, x3, …, xn)을 다음과 같이 가중결합 시킨 형태
- P차원의 정보를 선형적 개념에서 1차원으로 축소하는 것
주성분분석 4단계
- 1) 데이터 특성 파악 - 상관분석을 통한 변수간 상관관계 파악
- 2) 가중계수 추출 - 공분산 행렬에 대한 고유값 분해 이용
- 3) 차원 축소 - 상관계수 및 상관행렬
- 4) 보유 주성분 개수 판정 - 전체변이에 대한 공헌도, 고유값 크기
주성분분석 예시
주성분분석 방법
- 주성분분석의 문제점 : 측정 단위에 따라 분산이 크게 달라짐
- 표준화 하는 경우
- 측정단위가 다른경우
- 상관행렬로부터 시작하는 주성분분석
- 표준화 하지 않는 경우
- 자료의 단위가 동일한 경우
- 분산공분산 행렬로부터 시작하는 주성분분석
- 표준화 하지 않는 경우 변수의 단위 그대로, 변동 그래도를 사용하기 때문에 데이터와 모집단의 특성을 잘 드러낼 수 있음
주성분분석의 예시
- 성별과 연령에 따른 상품의 고객 만족에 대한 주성분분석
- 공분산행렬을 통해 얻어진 고유값의 합은 8.178로 총 분산의 양과 같음
- 첫 2개의 고유값는 5.082, 2.458로 이는 각각 전체의 변이의 62.2%(5.082/2.458)과 30.1%(2.458/8.178)를 차지함
- 첫 2개의 주성분이 전체의 92.3%를 설명할 수 있다는 것을 의미
- 성별과 연령에 따른 상품의 고객 만족에 대한 주성분분석 결과