본문 바로가기
AI&ML/데이터 분석 개념

결측값의 종류

by ornni 2022. 9. 16.
728x90
반응형

결측값 발생에 어떤 인과관계가 있느냐 or 인과관계의 정도에 따라 분류

 

1. 완전 무작위 결측(missing completely at random, MCAR)

  • 결측값이 변수의 성질과 전혀 무관하게 발생하는 경우
  • 결측값의 발생에 어떠한 의도가 없는 상태로, 결측값의 존재가 전혀 문제되지 않는다.
  • 결측값 발생에 이상적인 경우 (현실에서는 그럴 가능성이 놏지 않다)

ex) 무작위 누락, 미기입

 

2. 무작위 결측(missing at random, MAR)

  • 결측의 발생은 오로지 측정된 값에 의해서만 설명되며, 결측값은 측정된 값과는 독립임을 가정
  • 측정된 값으로부터 결측값 추정이 가능하므로 결측값 대체 방법 적용 가능
  • 결측값의 발생이 인과관계에 의한 것이 아니라 추정 가능한 상태

ex) 여자의 몸무게는 적지 않을 확률이 높지만, 여자와 몸무게는 연관 없음

 

3. 비무작위 결측(missing not at random, MNAR)

  • 결측값이 랜덤하게 발생한게 아니라, 측정값과 결측값에 모두 영향을 받은 상태
  • 이유가 있는 결측값이므로 무시할 수 없고 추가 조사가 필요하다.

ex) 뚱뚱한 사람은 몸무게를 적지 않을 확률이 높음

→ 결측값의 경우 몸무게가 평균 이상이라고 예상

 

 

반응형

'AI&ML > 데이터 분석 개념' 카테고리의 다른 글

상관관계  (0) 2024.03.29
이상치 제거 방법  (0) 2024.03.22
주성분분석  (0) 2022.08.08
지도학습 vs 비지도학습  (0) 2022.07.11
머신러닝 프로세스  (0) 2022.06.17