728x90
반응형
결측값 발생에 어떤 인과관계가 있느냐 or 인과관계의 정도에 따라 분류
1. 완전 무작위 결측(missing completely at random, MCAR)
- 결측값이 변수의 성질과 전혀 무관하게 발생하는 경우
- 결측값의 발생에 어떠한 의도가 없는 상태로, 결측값의 존재가 전혀 문제되지 않는다.
- 결측값 발생에 이상적인 경우 (현실에서는 그럴 가능성이 놏지 않다)
ex) 무작위 누락, 미기입
2. 무작위 결측(missing at random, MAR)
- 결측의 발생은 오로지 측정된 값에 의해서만 설명되며, 결측값은 측정된 값과는 독립임을 가정
- 측정된 값으로부터 결측값 추정이 가능하므로 결측값 대체 방법 적용 가능
- 결측값의 발생이 인과관계에 의한 것이 아니라 추정 가능한 상태
ex) 여자의 몸무게는 적지 않을 확률이 높지만, 여자와 몸무게는 연관 없음
3. 비무작위 결측(missing not at random, MNAR)
- 결측값이 랜덤하게 발생한게 아니라, 측정값과 결측값에 모두 영향을 받은 상태
- 이유가 있는 결측값이므로 무시할 수 없고 추가 조사가 필요하다.
ex) 뚱뚱한 사람은 몸무게를 적지 않을 확률이 높음
→ 결측값의 경우 몸무게가 평균 이상이라고 예상
반응형