본문 바로가기
AI&ML/데이터 분석 개념

이상치 제거 기준

by ornni 2024. 6. 30.
728x90
반응형

이상치 제거 기준

 

이상치를 제거하는 것이 적절한 경우

- 이상치가 실제 데이터 오류 가능성이 높을 때

- 분석의 목적에 맞지 않거나 분석 결과 부정적인 영향을 미치는 경우

- 특이한 경우로 일반적인 범위를 벗어날 때

 

주의할 점!!

- 이상치 제거는 데이터 손실을 초래함 (정보 손실의 위험성)

- 데이터  세트가 작거나 이상치가 적은 경우 이를 제거하면 데이터의 대부분을 잃을 수 있음


모든 변수의 이상치 개수가 비슷비슷한 경우?

 

- 데이터 품질 문제

데이터 수집에서 문제가 발생한 경우 모든 열에 대한 이상치가 발생함

 

- 이상치 정의 한계

이상치 정의가 너무 염격하거나 느슨한 경우

 

- 표본 크기 문제

데이터 표본이 너무 작거나 균일하지 않은 경우

데이터 추가 수집이나 샘플링 방법으로 조정 가능

 

- 변수가 관계

변수간 일정한 관계가 있는지 확인 필요


이상치 제거 방법

https://ornni.tistory.com/54

 

이상치 제거 방법

IQR (Interquartile Range) 방법 주로 데이터 분포가 정규분포를 따르지 않을 때, 대부분의 데이터가 중앙에 몰려 있지 않고 극단적인 값을 갖는 경우에 유용 장점: 이상치를 식별하기 위한 단순하고 직

ornni.tistory.com

 

반응형

'AI&ML > 데이터 분석 개념' 카테고리의 다른 글

차원축소  (0) 2024.06.29
상관계수  (0) 2024.04.06
상관관계  (0) 2024.03.29
이상치 제거 방법  (0) 2024.03.22
결측값의 종류  (0) 2022.09.16