본문 바로가기
AI&ML/데이터 분석 개념

상관관계

by ornni 2024. 3. 29.
728x90
반응형

상관관계 (correlation)

 

두 변수가 함께 변화하는 경향이 있는지를 나타냄 (-1~1 사이 값)

 

 

딥러닝 사용 전 데이터 상관관계 분석 이유

1. 특성 선택 및 차원 축소

데이터에서 상관관계가 높은 특성들은 서로 유사한 정보를 포함하고 있을 가능성이 높음

→ 이러한 특성들을 제거하거나 차원 축소 기법을 사용하여 중복된 정보 줄이기

 

2. 다중공선성 확인

다중공선성은 특성들 간에 강한 상관관계가 있어서 모델의 안정성을 해치는 현상

모델의 해석을 어렵게 하거나 예측 성능 저하 해소를 위해

 

3. 모델의 안정성 향상

상관관계가 높은 특성들이 모델에 불안정성 초래

→ 일반화를 위해, overfitting의 위험 해소

 

4. 데이터 이해

어떤 특성을 가진 모델을 사용할 것인지 확인

 


상관관계를 이해했으면 상관계수의 종류에 대한 링크는 아래 있다!

https://ornni.tistory.com/59

 

상관계수

(연속형 - 연속형) - 피어슨 상관계수 (Pearson Correlation Coefficient) 연속형 변수와 연속형 변수 간 선형관계 확인에 사용 두 변수가 정규분포를 따를 때 적합 이상치에 민감 - 스피어만 상관계수 (Spear

ornni.tistory.com

 

반응형

'AI&ML > 데이터 분석 개념' 카테고리의 다른 글

차원축소  (0) 2024.06.29
상관계수  (0) 2024.04.06
이상치 제거 방법  (0) 2024.03.22
결측값의 종류  (0) 2022.09.16
주성분분석  (0) 2022.08.08