KNN

728x90

K-최근접 이웃(k-Nearest Neighbor, kNN)

데이터 분류에 사용되는 간단한 지도학습 알고리즘

장점: 상대적으로 이해하기 쉬움

단점: 다른 알고리즘에 비해 연산 속도가 느림

이웃: 가까이 존재하는 데이터

kNN알고리즘: 현재 데이터를 특정값으로 분류하기 위해 기존의 데이터안에서 현재 데이터로부터 가까운 k개의 데이터를 찾아 k개의 레이블 중 가장 많이 분류된 값으로 현재의 데이터를 분류하는 알고리즘

K는 주로 홀수로 설정

최적의 k를 찾기 위해 보통 검증 데이터를 통해 가장 정확도가 높은 k를 kNN알고리즘의 k로 선정

장점

- 다른 머신러닝알고리즘보다 이해하기 쉬움

- 숫자로 구분된 속성에 우수한 성능을 보임

- 별도의 모델 학습이 필요 없음(lazy learning)

→ 실시간 데이터를 사용해야 할 때 유용하게 쓰임

단점

- 예측 속도가 느림

- 다른 머신러닝알고리즘에 비해 예측값이 지역 정보에 많이 편향될 수 있음

KNN - IRIS dataset

Ornni