학습 자료

비슷한 데이터를 묶는 K-평균 군집화

K-평균 군집화(K-Means Clustering)는 데이터를 자동으로 여러 그룹으로 묶는 비지도 학습 알고리즘입니다.

K-평균 군집화는 데이터를 K개의 그룹(클러스터)로 나누는 알고리즘으로, 사용자는 원하는 군집 개수(K)를 미리 정해야 합니다.

주로 고객 데이터를 분석하여 성향이 비슷한 그룹을 찾거나, 뉴스 기사들을 주제별로 자동 분류하는 데 사용합니다.


K-평균 군집화는 어떻게 사용될까요?

K-평균 군집화의 목표는 데이터를 가장 비슷한 그룹으로 나누는 것입니다.

이를 위해 각 데이터가 속할 중심점(Centroid)을 찾고, 이 중심점을 기준으로 데이터를 배치합니다.

예를 들어 영화 추천 시스템에서 사용자의 시청 기록을 기반으로 비슷한 취향을 가진 그룹을 찾는다면, 다음과 같이 사용자를 군집화할 수 있습니다.

K-평균 군집화 예제
사용자 A → 액션 영화 선호 → 클러스터 1 사용자 B → 로맨스 영화 선호 → 클러스터 2 사용자 C → 공포 영화 선호 → 클러스터 3 사용자 D → 액션 영화 선호 → 클러스터 1

thumbnail-public


위 차트는 아래와 같이 해석할 수 있습니다.

  • 각 ✖ → 개별 사용자의 영화 취향 데이터

  • 세 개의 클러스터(Cluster 1, 2, 3) → 서로 비슷한 영화 취향을 가진 그룹을 형성

    • 빨간색 (Cluster 1) → 액션 영화 선호
    • 파란색 (Cluster 2) → 공포 영화 선호
    • 초록색 (Cluster 3) → 로맨스 영화 선호
  • 노란색 X 표시 → 각 클러스터의 중심점


K-평균 군집화 동작 방식

K-평균 군집화는 다음과 같은 순서로 작동합니다.


1. 초기 중심점(K개) 선택

먼저 K개의 초기 중심점을 랜덤하게 설정합니다.


2. 각 데이터 포인트를 가장 가까운 중심점에 할당

각 데이터 포인트를 가장 가까운 중심적에 속한 클러스터로 배정합니다.

이때, 거리를 계산하는 방법으로는 주로 유클리드 거리를 사용합니다.


3. 새로운 중심점 계산

각 클러스터 내 데이터의 평균값을 구하여 새로운 중심점을 설정합니다.


4. 클러스터가 안정화될 때까지 반복

이 과정을 반복하여 중심점이 더 이상 변하지 않을 때 알고리즘을 종료합니다.


📌 K-평균 군집화의 활용 사례

비슷한 데이터를 묶는 K-평균 군집화는 다음과 같이 다양한 분야에서 활용됩니다.

  • 고객 세분화 : 고객의 구매 패턴을 분석하여 비슷한 성향을 가진 그룹을 찾음

  • 이미지 압축 : 비슷한 색상끼리 그룹화하여 색상 수를 줄임

  • 이상 탐지 : 정상 데이터와 다른 군집에 속하는 이상 데이터를 탐지

  • 문서 분류: 뉴스 기사나 논문을 주제별로 자동 분류


K-평균 군집화는 비지도 학습의 대표적인 알고리즘 중 하나로, 데이터를 그룹화하는 작업에 유용합니다.

다음 수업에서는 지금까지 배운 내용을 점검하는 간단한 퀴즈를 풀어보겠습니다.

Mission
0 / 1

K-평균 군집화는 지도 학습 알고리즘이다.

학습 자료

AI 튜터

디자인

업로드

수업 노트

즐겨찾기

도움말