728x90
반응형
이상치 제거 기준
이상치를 제거하는 것이 적절한 경우
- 이상치가 실제 데이터 오류 가능성이 높을 때
- 분석의 목적에 맞지 않거나 분석 결과 부정적인 영향을 미치는 경우
- 특이한 경우로 일반적인 범위를 벗어날 때
주의할 점!!
- 이상치 제거는 데이터 손실을 초래함 (정보 손실의 위험성)
- 데이터 세트가 작거나 이상치가 적은 경우 이를 제거하면 데이터의 대부분을 잃을 수 있음
모든 변수의 이상치 개수가 비슷비슷한 경우?
- 데이터 품질 문제
데이터 수집에서 문제가 발생한 경우 모든 열에 대한 이상치가 발생함
- 이상치 정의 한계
이상치 정의가 너무 염격하거나 느슨한 경우
- 표본 크기 문제
데이터 표본이 너무 작거나 균일하지 않은 경우
데이터 추가 수집이나 샘플링 방법으로 조정 가능
- 변수가 관계
변수간 일정한 관계가 있는지 확인 필요
이상치 제거 방법
반응형