본문 바로가기

AI&ML/데이터 분석 개념10

이상치 제거 기준 이상치 제거 기준 이상치를 제거하는 것이 적절한 경우- 이상치가 실제 데이터 오류 가능성이 높을 때- 분석의 목적에 맞지 않거나 분석 결과 부정적인 영향을 미치는 경우- 특이한 경우로 일반적인 범위를 벗어날 때 주의할 점!!- 이상치 제거는 데이터 손실을 초래함 (정보 손실의 위험성)- 데이터  세트가 작거나 이상치가 적은 경우 이를 제거하면 데이터의 대부분을 잃을 수 있음모든 변수의 이상치 개수가 비슷비슷한 경우? - 데이터 품질 문제데이터 수집에서 문제가 발생한 경우 모든 열에 대한 이상치가 발생함 - 이상치 정의 한계이상치 정의가 너무 염격하거나 느슨한 경우 - 표본 크기 문제데이터 표본이 너무 작거나 균일하지 않은 경우데이터 추가 수집이나 샘플링 방법으로 조정 가능 - 변수가 관계변수간 일정한 관.. 2024. 6. 30.
차원축소 차원축소 데이터의 특성 수를 줄이는 작업데이터에서 중요한 정보를 보존하면서 더 작은 차원으로 표현 - 데이터의 복잡성을 줄임- 모델의 계산 비용을 줄임- 과적합 가능성을 줄임차원축소를 하는 경우- 고차원 데이터 시각화- 계산 비용 감소- 잡음 제거- 효율적 데이터 저장- 과정합 방지 차원축소를 하지 않는 경우- 정보 손실- 해석 가능성 감소- 적절한 축소 기법 선택 필요- 차원 축소의 추가 비용차원축소의 방법 - 주성분 분석 (Principal Component Analysis, PCA)고차원 데이터의 분산을 최대화하는 방향으로 데이터를 변환합니다.데이터의 공분산 행렬의 고유벡터를 사용하여 주성분을 구합니다. - 선형 판별 분석 (Linear Discriminant Analysis, LDA)분류 문제에서.. 2024. 6. 29.
상관계수 (연속형 - 연속형) - 피어슨 상관계수 (Pearson Correlation Coefficient) 연속형 변수와 연속형 변수 간 선형관계 확인에 사용 두 변수가 정규분포를 따를 때 적합 이상치에 민감 - 스피어만 상관계수 (Spearman’s Rank Correlation Coefficient) 두 변수가 정규성을 따르지 않을 때 사용 가능 두 변수 간의 단조 관계(순위 순서의 관계)를 측정 주어진 데이터를 순위로 변환한 후 상관관계 계산 변수가 서로 선형적인 상관관계를 갖지 않더라도 적용할 수 있음 이상치에 상대적으로 덜 민감 - 켄달의 타우 (Kendall’s Tau) 스피어만 상관계수와 유사하게 순위 기반의 상관관계를 측정 상관계수를 계산할 때 순위를 사용 두 변수 간의 관계가 얼마나 일치하는지.. 2024. 4. 6.
상관관계 상관관계 (correlation) 두 변수가 함께 변화하는 경향이 있는지를 나타냄 (-1~1 사이 값) 딥러닝 사용 전 데이터 상관관계 분석 이유 1. 특성 선택 및 차원 축소 데이터에서 상관관계가 높은 특성들은 서로 유사한 정보를 포함하고 있을 가능성이 높음 → 이러한 특성들을 제거하거나 차원 축소 기법을 사용하여 중복된 정보 줄이기 2. 다중공선성 확인 다중공선성은 특성들 간에 강한 상관관계가 있어서 모델의 안정성을 해치는 현상 → 모델의 해석을 어렵게 하거나 예측 성능 저하 해소를 위해 3. 모델의 안정성 향상 상관관계가 높은 특성들이 모델에 불안정성 초래 → 일반화를 위해, overfitting의 위험 해소 4. 데이터 이해 → 어떤 특성을 가진 모델을 사용할 것인지 확인 상관관계를 이해했으면 상.. 2024. 3. 29.
이상치 제거 방법 IQR (Interquartile Range) 방법 주로 데이터 분포가 정규분포를 따르지 않을 때, 대부분의 데이터가 중앙에 몰려 있지 않고 극단적인 값을 갖는 경우에 유용 장점: 이상치를 식별하기 위한 단순하고 직관적인 방법 데이터 분포에 대한 가정이 필요하지 않음 단점: 데이터의 분포에 따라서는 유효한 이상치가 잘못 제거될 수 있음 데이터의 밀도가 불균형하거나 이상치가 여러 그룹에 흩어져 있을 때 적용이 제한될 수 있음 표준 편차 기반 제거 데이터가 정규분포를 따르고 있을 때, 즉 대부분의 데이터가 중앙에 몰려 있고 극단적인 값을 갖는 경우에 유용 장점: 이상치 식별을 위한 빠르고 간단한 방법 데이터가 정규분포를 따른다는 가정하에 사용 가능 단점: 데이터가 정규분포를 따르지 않을 때 제대로 작동하지 .. 2024. 3. 22.
결측값의 종류 결측값 발생에 어떤 인과관계가 있느냐 or 인과관계의 정도에 따라 분류 1. 완전 무작위 결측(missing completely at random, MCAR) 결측값이 변수의 성질과 전혀 무관하게 발생하는 경우 결측값의 발생에 어떠한 의도가 없는 상태로, 결측값의 존재가 전혀 문제되지 않는다. 결측값 발생에 이상적인 경우 (현실에서는 그럴 가능성이 놏지 않다) ex) 무작위 누락, 미기입 2. 무작위 결측(missing at random, MAR) 결측의 발생은 오로지 측정된 값에 의해서만 설명되며, 결측값은 측정된 값과는 독립임을 가정 측정된 값으로부터 결측값 추정이 가능하므로 결측값 대체 방법 적용 가능 결측값의 발생이 인과관계에 의한 것이 아니라 추정 가능한 상태 ex) 여자의 몸무게는 적지 않을 .. 2022. 9. 16.
728x90