• 군집화(Clustering)



개념

군집화

  • 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 것
  • 대상 개체를 유사하거나 서로 관련있는 항목끼리 묶어 몇 개의 집단으로 그룹화 하는 것
  • 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 분석방법


특징

  • 사전에 정의된 어떤 특수한 목적이 없음
    • 종속변수에 대한 독립변수의 영향과 같이, 사전에 정의된 어떤 특수한 목적이 없음
    • 데이터 자체에 의존하여 데이터의 구조와 자료를 탐색하고 요약하는 기법
  • 대용량 데이터의 경우, 전체에 대한 의미 있는 정보를 얻어낼 수 있음

size_main

  • 동일한 군집 내의 개체들은 유사한 성격을 가짐
    • 서로 다른 군집에 속한 개체들은 이질적인 성격을 갖도록 군집이 형성되어야 함


유형

  • 상호 배반적 군집 : 각 관찰치가 상호배반적인 여러 군집 중 오직 하나에만 속하는 경우
  • 계보적 군집 : 한 군집이 다른 군집의 내부에 포함되는 형태로 군집간의 중복은 없으며 군집들이 매 단계 계층적인 관계를 형성하는 경우, 군집 내 상하종속관계를 보임
  • 중복 군집 : 두 개 이상의 군집에 한 관찰치가 동시에 소속되는 것이 허용되는 경우
  • 퍼지(Fuzzy) 군집 : 관찰치가 소속되는 특정한 군집을 표현하는 것이 아닌, 각 군집에 속할 확률을 표현하는 방법


계층적,비계층적

계층적 군집화

  • 구성방법
    • 병합적 방법 : 가까운 관찰단위들끼리 묶어 군집을 만들어가는 방법
    • 분할적 방법 : 거리가 먼 관찰단위들을 나누어가는 방법
    • 한 관찰단위는 한 군집에 속하면 다른 군집에는 다시 속하지 못함
    • 덴드로그램(Dendrogram)으로 표현
      어떤 특정 단계에서 병합 혹은 분할되는 군집들 간 관계를 파악하고 전체 군집들 간의 구조적 관계를 살펴보는데 사용되는 도표
  • 종류
    • 최단 연결법
    • 최장 연결법
    • 평균 연결법
    • 와드 연결법


비계층적 군집화

  • K-means 클러스터링이란 사전에 결정된 군집 수 K에 기초하여 형성
  • 데이터를 상대적으로 유사한 K개의 군집으로 구분하는 방법
    • 상호배반적인 K개의 군집을 형성
    • 군집의 수 K를 사전에 결정해야함


K-means 클러스터링 과정

  • 1) 클러스터 개수 k값을 결정
  • 2) 데이터가 분포된 공간 상에 ‘클러스터 중심’으로 가정할 임의의 지점 k개를 선택
    • 각 데이터는 근처에 있는 ‘클러스터 중심’에 할당됨
  • 3) 각 ‘클러스터 중심’을 해당 클러스터에 속한 데이터들의 평균으로 조정함
  • 4) 더 이상 ‘클러스터 중심’이 변하지 않을 때 까지 3-4 반복


K-means 클러스터링 장단점

  • 장점
    • 빠르고, 간단하게 군집화 할 수 있음
  • 단점
    • 분석자가 적절한 클러스터링의 개수(k)를 선정하기 어려움
    • 적절하지 못한 군집수 결정 시 결과가 좋지 않을 수 있음
      • 임의로 초기 K수를 설정하기 때문


군집분석 장점

  • 탐색적 기법
    • 군집분석 자체로, 대용량 데이터에 대한 탐색적 분석이 가능
    • 주어진 데이터의 내부 구조에 대한 사전정보나 사전분석의 필요 없이, 의미있는 자료구조를 찾아낼 수 있음
  • 다양한 데이터에 적용 가능
    • 관찰단위간의 거리를 데이터 형태에 맞게 정의하면 거의 모든 형태의 데이터에 적용 가능함
  • 분석방법 적용 용이
    • 대부분의 군집 분석 방법은 분석 대상 데이터에 대해 사전 정보를 요구하지 않으므로 분석 방법 적용에 큰 어려움이 없음
    • 모형화에 사용되는 분석들과 같이, 특정 변수들에 대한 역할 정의(독립, 종속 등)가 불필요


군집분석 단점

  • 가중치와 거리 정의
    • 군집분석의 결과는 관찰단위 사이의 유사성을 나타내는 거리를 어떻게 정의하느냐가 크게 좌우함
    • 특히 여러 자료유형(수치,범주형 등)을 포함하는 데이터의 경우에는, 관찰 단위 사이의 거리를 정의하고 각 변수에 대한 가중치를 결정하는 것이 매우 어려움
  • 결과 해석의 어려움
    • 사전에 주어진 목적이 없으므로, 결과 해석이 명확하지 않음
    • 주어진 변수에 따라 잘 구분된 군집이라고 해도, 그 결과를 실제적으로 활용하기 쉽지 않음
  • 초기 군집수의 결정
    • K-means에서는 만일 군집 수 K가 원 데이터구조에 부적합하면, 좋은결과를 얻기 힘듦
      • 사전에 정의된 군집 수를 기준으로 사전정의 군집과 동일한 수의 군집을 찾게 되기 때문임
    • 이를 방지하기 위해 여러 번의 탐색적인 군집 분석 과정이 필요함


단계

  • 1단계 : 연구문제 확정
  • 2단계 : 대상 개체 및 변수 확정
  • 3단계 : 군집 방법 결정
  • 4단계 : 연결방법 및 거리척도 결정
  • 5단계 : 군집계수 결정 및 해석


군집분석 종류 선택 도식화

size_main


예시

  • K-means
    • 학생 6명의 시험점수가 다음과 같을 때, K-means 군집분석을 실시하는 경우 K=2로 군집분석을 실시

size_main