본문 바로가기

AI&ML/데이터 분석 개념9

주성분분석 주성분 분석(principle component analysis, PCA)고차원의데이터를 저차원의 데이터로 차원 축소하는 알고리즘주로 고차원의 데이터를 3차원 이하의 데이터로 바꾸어서 시각화 하는데 많이 사용됨유용한 정보만 이용하여 적은 메모리에 저장하거나 데이터의 노이즈를 줄이고 싶을 때 사용되는 알고리즘  3차원 이상의 데이터를 저차원으로 줄이는데 많이 사용됨ex)2차원 공간의 데이터들을 1차원 공간의 데이터로 변환 특징데이터의 분산을 최대한 유지하면서 저차원으로 데이터를 변환분산을 유지하는 이유: 데이터의 고유한 특성을 최대한 유지하기 위해아래 그림 중 왼쪽 보다 오른쪽이 데이터가 중첩되지 않아 정보의 유실이 가장 적다고 할 수 있음(=데이터의 분산이 가장 크다)분산이 가장 큰 차원은 수학적으로 공.. 2022. 8. 8.
지도학습 vs 비지도학습 지도학습(Supervised Learning) 정답 레이블(y)을 알려주고 학습이 진행되는 경우 ex) 분류, 회귀 등 장점: 모델의 성능을 평가하기 쉬움 단점: 데이터마다 레이블을 달아야해서 시간이 오래 걸림 비지도학습(Unsupervised Learning) 정답 레이블(y)이 없이 학습이 진행되는 경우 ex) 군집화, 차원축소 장점: 따로 레이블을 제공할 필요가 없음 단점: 모델 성능 평가에 어려움이 있음 2022. 7. 11.
머신러닝 프로세스 머신러닝을 진행하기 전에 전체적인 과정이 어떻게 진행되는지 알아야 계획을 수립하기 좋다 1. 문제파악(Problem) 배경 이해 분석 목표 확인 분석 일정 수립 데이터 다운로드 2. 데이터 탑색(EDA) 데이터 탐색(외부 데이터도 탐색 필요) 데이터 이상 유무 확인 - 결측값 파악, 이상치 파악 등 데이터 구조 및 특성 파악 - 데이터 분포, 상관관계 등 3. 데이터 전처리(Preprocessing) 모델 학습이 가능한 형태로 데이터를 정리 - 데이터 결합, 결측값 처리, 이상치 처리, 데이터 변환, 범주형 변수 인코딩, 속성 추가 제거 등 4. 모델 학습(Modeling) 모델 학습을 위한 훈련 데이터/모델 성능평가를 위한 검증 데이터 분할 알고리즘 선택 모델링 hyperparameter 튜닝 성능평가.. 2022. 6. 17.
728x90