AI&ML/데이터 분석 개념
이상치 제거 기준
ornni
2024. 6. 30. 10:00
728x90
반응형
이상치 제거 기준
이상치를 제거하는 것이 적절한 경우
- 이상치가 실제 데이터 오류 가능성이 높을 때
- 분석의 목적에 맞지 않거나 분석 결과 부정적인 영향을 미치는 경우
- 특이한 경우로 일반적인 범위를 벗어날 때
주의할 점!!
- 이상치 제거는 데이터 손실을 초래함 (정보 손실의 위험성)
- 데이터 세트가 작거나 이상치가 적은 경우 이를 제거하면 데이터의 대부분을 잃을 수 있음
모든 변수의 이상치 개수가 비슷비슷한 경우?
- 데이터 품질 문제
데이터 수집에서 문제가 발생한 경우 모든 열에 대한 이상치가 발생함
- 이상치 정의 한계
이상치 정의가 너무 염격하거나 느슨한 경우
- 표본 크기 문제
데이터 표본이 너무 작거나 균일하지 않은 경우
데이터 추가 수집이나 샘플링 방법으로 조정 가능
- 변수가 관계
변수간 일정한 관계가 있는지 확인 필요
이상치 제거 방법
이상치 제거 방법
IQR (Interquartile Range) 방법 주로 데이터 분포가 정규분포를 따르지 않을 때, 대부분의 데이터가 중앙에 몰려 있지 않고 극단적인 값을 갖는 경우에 유용 장점: 이상치를 식별하기 위한 단순하고 직
ornni.tistory.com
반응형