본문 바로가기
AI&ML/데이터 분석 개념

상관계수

by ornni 2024. 4. 6.
728x90
반응형

(연속형 - 연속형)

- 피어슨 상관계수 (Pearson Correlation Coefficient)

연속형 변수와 연속형 변수 간 선형관계 확인에 사용

두 변수가 정규분포를 따를 때 적합

이상치에 민감

- 스피어만 상관계수 (Spearman’s Rank Correlation Coefficient)

두 변수가 정규성을 따르지 않을 때 사용 가능

두 변수 간의 단조 관계(순위 순서의 관계)를 측정

주어진 데이터를 순위로 변환한 후 상관관계

변수가 서로 선형적인 상관관계를 갖지 않더라도 적용할 수 있음

이상치에 상대적으로 덜 민감

- 켄달의 타우 (Kendall’s Tau)

스피어만 상관계수와 유사하게 순위 기반의 상관관계를 측정

상관계수를 계산할 때 순위를 사용

두 변수 간의 관계가 얼마나 일치하는지 측정

데이터 작거나 동률이 높을 때 유용

이상치에 강건


(범주형 - 범주형)

- 파이 상관계수 (Phi Correlation Coefficient)

주로 이진 변수의 상관성 파악에 유용

- 크래머의 V (Cramer’s V)

범주 대상이 3개 이상인 경우에 사용

카이제곱 통계량에 기반

01 사이값을 가짐


(연속형 범주형)

- 포인트-직렬 상관계수 (Point-Biserial Correlation Coefficient)

연속형 변수와 이진 범주형 변수간 상관관계 파악

- Biserial 상관계수 (Biserial Correlation Coefficient)

연속형 변수와 이진 변수 사이 상관계수 파악

이진 변수의 값이 0인 경우와 1인 경우에 대해 각각 평균을 구하고 이를 이용하여 상관계수 계산

피어슨 상관계수와 유사한 방법으로 계산

- Polyserial 상관계수 (Polyserial Correlation Coefficient)

연속형 변수와 ordinal(순서형) 범주형 변수 사이 상관계수 파악

ordinal 변수는 범주 간에 순서나 등간격이 있는 경우를 가정

Biserial 상관계수와 ordinal 변수의 순서를 고려하여 계산

범주형 변수를 연속형으로 변환한 후 피어슨 상관계수를 구하는 방법과 유사

-범주형 변수 변환 후 피어슨 상관관계 추천

상관관계에 대한 설명은 아래 첨부한다.

https://ornni.tistory.com/55

 

상관관계

상관관계 (correlation) 두 변수가 함께 변화하는 경향이 있는지를 나타냄 (-1~1 사이 값) 딥러닝 사용 전 데이터 상관관계 분석 이유 1. 특성 선택 및 차원 축소 데이터에서 상관관계가 높은 특성들은

ornni.tistory.com

 

반응형

'AI&ML > 데이터 분석 개념' 카테고리의 다른 글

이상치 제거 기준  (2) 2024.06.30
차원축소  (0) 2024.06.29
상관관계  (0) 2024.03.29
이상치 제거 방법  (0) 2024.03.22
결측값의 종류  (0) 2022.09.16