본문 바로가기
AI&ML/데이터 분석 개념

이상치 제거 방법

by ornni 2024. 3. 22.
728x90
반응형

IQR (Interquartile Range) 방법

 

주로 데이터 분포가 정규분포를 따르지 않을 때, 대부분의 데이터가 중앙에 몰려 있지 않고 극단적인 값을 갖는 경우에 유용

 

장점:

이상치를 식별하기 위한 단순하고 직관적인 방법

데이터 분포에 대한 가정이 필요하지 않음

 

단점:

데이터의 분포에 따라서는 유효한 이상치가 잘못 제거될 수 있음

데이터의 밀도가 불균형하거나 이상치가 여러 그룹에 흩어져 있을 때 적용이 제한될 수 있음


 

표준 편차 기반 제거

 

데이터가 정규분포를 따르고 있을 때, 즉 대부분의 데이터가 중앙에 몰려 있고 극단적인 값을 갖는 경우에 유용

 

장점:

이상치 식별을 위한 빠르고 간단한 방법

데이터가 정규분포를 따른다는 가정하에 사용 가능

 

단점:

데이터가 정규분포를 따르지 않을 때 제대로 작동하지 않을 수 있음

데이터가 아웃라이어를 포함하는 경우에 유효하지 않을 수 있음


K-최근접 이웃 (KNN) 기법

 

데이터 간의 거리가 중요하며 이상치가 군집되어 있을 때 유용

 

장점:

이상치를 식별하기 위해 데이터 간의 관계를 고려

복잡한 데이터 패턴을 다룰 수 있음

 

단점:

K 값의 선택에 따라 결과가 달라질 수 있음

데이터의 차원이 높을 경우 성능이 저하될 수 있음


클러스터링 기반 제거

 

데이터가 그룹화되어 있고 각 그룹에 대한 특성을 분석할 때 유용

 

장점:

데이터의 그룹화를 고려하여 이상치를 식별

다양한 형태의 이상치를 식별 가능

 

단점:

클러스터링 알고리즘의 초기화에 민감할 수 있음

데이터가 잘 구분되지 않는 경우에는 제대로 작동하지 않을 수 있음


지도학습 기반 이상치 탐지

 

정상 데이터와 이상치를 명확히 구분할 수 있고 학습 데이터가 충분한 경우에 유용

 

장점:

이상치 패턴을 학습하여 정확한 이상치 식별이 가능

다양한 데이터 패턴을 처리할 수 있음

 

단점:

학습 데이터가 이상치를 충분히 포함하지 않을 경우 정확성이 저하될 수 있음

레이블이 필요하고 학습 시간이 오래 걸릴 수 있음


이동 평균 (Moving Average) 방법

 

시간에 따른 데이터의 변화를 모니터링하고 트렌드를 파악하려는 시계열 데이터에 적합

시계열 데이터에서 변동이 큰 데이터 포인트를 이상치로 간주하는 데 도움이 될 수 있음

 

장점:

데이터의 추세를 고려하여 이상치를 식별할 수 있음

이동 평균을 사용하여 데이터의 변동성을 줄일 수 있음

 

단점:

이동 평균 계산 시 사용되는 윈도우 크기에 따라 결과가 달라질 수 있음

급격한 변동이 있는 데이터에서는 이상치를 식별에 제한이 있을 수 있음

 

이동 평균을 사용하는 일반적인 절차

1. 시계열 데이터에 대해 이동 평균을 계산

2. 이동 평균과 원래 데이터 간의 차이를 계산

3. 특정 임계값을 설정하여 차이가 임계값을 초과하는 데이터 포인트를 이상치로 식별

4. 이상치로 식별된 데이터 포인트를 제거하거나 조정

반응형

'AI&ML > 데이터 분석 개념' 카테고리의 다른 글

상관계수  (0) 2024.04.06
상관관계  (0) 2024.03.29
결측값의 종류  (0) 2022.09.16
주성분분석  (0) 2022.08.08
지도학습 vs 비지도학습  (0) 2022.07.11