본문 바로가기
AI&ML/데이터 분석 개념

주성분분석

by ornni 2022. 8. 8.
728x90
반응형

주성분 분석(principle component analysis, PCA)

고차원의데이터를 저차원의 데이터로 차원 축소하는 알고리즘

주로 고차원의 데이터를 3차원 이하의 데이터로 바꾸어서 시각화 하는데 많이 사용됨

유용한 정보만 이용하여 적은 메모리에 저장하거나 데이터의 노이즈를 줄이고 싶을 때 사용되는 알고리즘

 


 

3차원 이상의 데이터를 저차원으로 줄이는데 많이 사용됨

ex)2차원 공간의 데이터들을 1차원 공간의 데이터로 변환

 

특징

데이터의 분산을 최대한 유지하면서 저차원으로 데이터를 변환

분산을 유지하는 이유: 데이터의 고유한 특성을 최대한 유지하기 위해

아래 그림 중 왼쪽 보다 오른쪽이 데이터가 중첩되지 않아 정보의 유실이 가장 적다고 할 수 있음(=데이터의 분산이 가장 크다)

분산이 가장 큰 차원은 수학적으로 공분산 행렬(covariance matrix)에서 고윳값(eigen value)이 가장 큰 고유벡터(eigen vector)임

ex) 데이터를 5차원에서 2차원으로 줄이는 경우, 주성분 분석 알고리즘은 공분산 행렬에서 고윳값이 큰 순서대로 고유벡터를 정렬한 후, 가장 큰 고유벡터와 도 번째로 큰 고유벡터를 축으로 2차원 데이터를 만듦

 

반응형

'AI&ML > 데이터 분석 개념' 카테고리의 다른 글

이상치 제거 방법  (0) 2024.03.22
결측값의 종류  (0) 2022.09.16
지도학습 vs 비지도학습  (0) 2022.07.11
분류성능평가 지표  (0) 2022.07.01
머신러닝 프로세스  (0) 2022.06.17