728x90
반응형
상관관계 (correlation)
두 변수가 함께 변화하는 경향이 있는지를 나타냄 (-1~1 사이 값)
딥러닝 사용 전 데이터 상관관계 분석 이유
1. 특성 선택 및 차원 축소
데이터에서 상관관계가 높은 특성들은 서로 유사한 정보를 포함하고 있을 가능성이 높음
→ 이러한 특성들을 제거하거나 차원 축소 기법을 사용하여 중복된 정보 줄이기
2. 다중공선성 확인
다중공선성은 특성들 간에 강한 상관관계가 있어서 모델의 안정성을 해치는 현상
→ 모델의 해석을 어렵게 하거나 예측 성능 저하 해소를 위해
3. 모델의 안정성 향상
상관관계가 높은 특성들이 모델에 불안정성 초래
→ 일반화를 위해, overfitting의 위험 해소
4. 데이터 이해
→ 어떤 특성을 가진 모델을 사용할 것인지 확인
상관관계를 이해했으면 상관계수의 종류에 대한 링크는 아래 있다!
반응형