본문 바로가기
AI&ML/데이터 분석 개념

차원축소

by ornni 2024. 6. 29.
728x90
반응형

차원축소

 

데이터의 특성 수를 줄이는 작업

데이터에서 중요한 정보를 보존하면서 더 작은 차원으로 표현

 

- 데이터의 복잡성을 줄임

- 모델의 계산 비용을 줄임

- 과적합 가능성을 줄임


차원축소를 하는 경우

- 고차원 데이터 시각화

- 계산 비용 감소

- 잡음 제거

- 효율적 데이터 저장

- 과정합 방지

 

차원축소를 하지 않는 경우

- 정보 손실

- 해석 가능성 감소

- 적절한 축소 기법 선택 필요

- 차원 축소의 추가 비용


차원축소의 방법

 

- 주성분 분석 (Principal Component Analysis, PCA)

고차원 데이터의 분산을 최대화하는 방향으로 데이터를 변환합니다.

데이터의 공분산 행렬의 고유벡터를 사용하여 주성분을 구합니다.

 

- 선형 판별 분석 (Linear Discriminant Analysis, LDA)

분류 문제에서 클래스 간 분산을 최대화하고, 클래스 내 분산을 최소화하는 방향으로 데이터를 변환합니다.

주로 지도학습에서 사용됩니다.

 

- 독립 성분 분석 (Independent Component Analysis, ICA)

신호를 통계적으로 독립적인 성분으로 분해합니다.

혼합 신호에서 원 신호를 추출하는 데 유용합니다.

 

- t-분포에 의한 스토캐스틱 이웃 임베딩 (t-Distributed Stochastic Neighbor Embedding, t-SNE)

고차원 데이터의 유사성을 저차원 공간에 보존하여 시각화하는 방법입니다.

주로 데이터의 시각화에 사용되며, 비선형 변환을 사용합니다.

 

- 잠재 디리클레 할당 (Latent Dirichlet Allocation, LDA)

문서와 같은 이산 데이터의 주제를 찾기 위해 사용됩니다.

문서-단어 행렬을 주제-단어 행렬로 변환합니다.

 

- UMAP (Uniform Manifold Approximation and Projection)

데이터의 저차원 표현을 찾기 위해 데이터의 근접성을 유지하는 기법입니다.

t-SNE와 유사하지만 더 빠르고 큰 데이터셋에 효율적입니다.

 

- 커널 PCA (Kernel Principal Component Analysis)

비선형 데이터를 선형적으로 분리하기 위해 커널 트릭을 적용한 PCA입니다.

데이터의 비선형 구조를 더 잘 포착할 수 있습니다.

 

- Isomap (Isometric Mapping)

저차원 공간에서의 거리를 유지하며 고차원 데이터를 저차원으로 변환합니다.

주로 비선형 구조를 가진 데이터에 사용됩니다.

 

- LLE (Locally Linear Embedding)

데이터의 국부적인 선형성을 보존하며 저차원 공간으로 변환합니다.

고차원 데이터의 구조를 저차원에서 유지합니다.

 

- NMF (Non-negative Matrix Factorization)

행렬을 비음수 행렬들의 곱으로 분해하여 데이터의 잠재 구조를 추출합니다.

데이터가 비음수 값을 가지는 경우에 유용합니다.

반응형

'AI&ML > 데이터 분석 개념' 카테고리의 다른 글

이상치 제거 기준  (2) 2024.06.30
상관계수  (0) 2024.04.06
상관관계  (0) 2024.03.29
이상치 제거 방법  (0) 2024.03.22
결측값의 종류  (0) 2022.09.16