본문 바로가기

AI&ML/데이터 분석 개념10

주성분분석 주성분 분석(principle component analysis, PCA)고차원의데이터를 저차원의 데이터로 차원 축소하는 알고리즘주로 고차원의 데이터를 3차원 이하의 데이터로 바꾸어서 시각화 하는데 많이 사용됨유용한 정보만 이용하여 적은 메모리에 저장하거나 데이터의 노이즈를 줄이고 싶을 때 사용되는 알고리즘  3차원 이상의 데이터를 저차원으로 줄이는데 많이 사용됨ex)2차원 공간의 데이터들을 1차원 공간의 데이터로 변환 특징데이터의 분산을 최대한 유지하면서 저차원으로 데이터를 변환분산을 유지하는 이유: 데이터의 고유한 특성을 최대한 유지하기 위해아래 그림 중 왼쪽 보다 오른쪽이 데이터가 중첩되지 않아 정보의 유실이 가장 적다고 할 수 있음(=데이터의 분산이 가장 크다)분산이 가장 큰 차원은 수학적으로 공.. 2022. 8. 8.
지도학습 vs 비지도학습 지도학습(Supervised Learning) 정답 레이블(y)을 알려주고 학습이 진행되는 경우 ex) 분류, 회귀 등 장점: 모델의 성능을 평가하기 쉬움 단점: 데이터마다 레이블을 달아야해서 시간이 오래 걸림 비지도학습(Unsupervised Learning) 정답 레이블(y)이 없이 학습이 진행되는 경우 ex) 군집화, 차원축소 장점: 따로 레이블을 제공할 필요가 없음 단점: 모델 성능 평가에 어려움이 있음 2022. 7. 11.
분류성능평가 지표 정확도(Accuracy) =(TP+TN)/(TP+FN+FP+TN) 정밀도(Precision): T라고 예측하고 있는 것이 진짜 T인 비율 =TP/(TP+FP) 재현율(Recall): 실제 T인 것들 중 T라고 예측한 비율 =TP/(TP+FN) F1지표(F1-score): precision과 recall의 조화평균 =2*(precision*recall)/(precision+recall) FPR(Fall-out): 실제 F인 것들 중 T라고 예측한 비율 =FP/(TN+FP) ROC(Receiver Operating Characteristic) curve AUC(Area Under Curve): ROC curve의 아래 면적값 최대값 1 2022. 7. 1.
머신러닝 프로세스 머신러닝을 진행하기 전에 전체적인 과정이 어떻게 진행되는지 알아야 계획을 수립하기 좋다 1. 문제파악(Problem) 배경 이해 분석 목표 확인 분석 일정 수립 데이터 다운로드 2. 데이터 탑색(EDA) 데이터 탐색(외부 데이터도 탐색 필요) 데이터 이상 유무 확인 - 결측값 파악, 이상치 파악 등 데이터 구조 및 특성 파악 - 데이터 분포, 상관관계 등 3. 데이터 전처리(Preprocessing) 모델 학습이 가능한 형태로 데이터를 정리 - 데이터 결합, 결측값 처리, 이상치 처리, 데이터 변환, 범주형 변수 인코딩, 속성 추가 제거 등 4. 모델 학습(Modeling) 모델 학습을 위한 훈련 데이터/모델 성능평가를 위한 검증 데이터 분할 알고리즘 선택 모델링 hyperparameter 튜닝 성능평가.. 2022. 6. 17.
728x90