본문 바로가기

AI&ML23

앙상블 앙상블 여러 개의 분류 모델을 조합해서 더 나은 성능을 내는 방법 배깅(bagging) 한 가지 분류 모델을 여러 개 만들어서 서로 다른 학습 데이터로 학습시킨 후(부트스트랩), 동일한 테스트 데이터에 대해 서로 다른 예측값들을 투표를 통해(어그리게이팅) 가장 높은 예측값으로 결정하는 앙상블 기법 - 부트스트랩 데이터를 조금 편향되게 샘플링하는 기법 - 어그리게이팅 여러 분류 모델이 에측한 값들을 조합해서 하나의 결론을 도출하는 과정 - 하드보팅 배깅에 포함된 분류모델들 중에서 최대 득표를 받은 예측값으로 결론 도출 - 소프트보팅 모든 분류값의 확률 리턴 각 분류값별 확률을 더해준 값을 점수로 사용해 최대점수를 가진 분류값을 결론으로 도출 - 랜덤 포레스트 여러 의사결정 트리를 배깅해서 예측을 실행하는 .. 2022. 8. 26.
Naive Bayes 나이브베이즈(Naïve Bayes) 확률 기반 머신러닝 분류 알고리즘 나이브 베이즈분류 알고리즘 나이브(단순)하게 독립적인 사건으로 가정하고, 이 독립 사건들을 베이즈 이론에 대입시켜 가장 높은 확률의 레이블로 분류를 실행하는 알고리즘 가우시안 나이브 베이즈 분류 특징들의 값들이 정규분포(가우시간 분포)되어있다는 가정하에 조건부 확률을 계산하여, 연속적인 성질이 있는 특징이 있는 데이터를 분류하는데 적합 다항 분포 나이브 베이즈(Multinomial Naïve Bayes) 데이터 특징이 출현 횟수로 표현됐을 때 사용 베르누이 나이브 베이즈 모델(Bernoulli Naïve Bayes) 데이터의 특징이 0과 1로 표현됐을 때 사용 스무딩 학습 데이터에 없던 데이터가 출현해도 빈도수에 1을 더해 확률이 0이.. 2022. 8. 15.
딥러닝 개념 딥러닝=심층신경망(Deep Neural Network, DNN) 뉴런으로 구성된 레이어를 여러 개 연결해서 구성한 네트워크 딥러닝의 탄생 딥러닝(=신경망): 인간의 뇌가 생각하는 방식을 머신러닝알고리즘으로 설계한 것 뉴런이 가지고 있는 정보는 가중치와 곱해져서 다음 레이어의 뉴런으로 전파 딥러닝과 머신러닝의 관계 딥러닝 손실함수 출력값과 정답의 차이 최적화(optimization) 매개변수를 조절해서 손실함수의 값을 최저로 만드는 과정 옵티마이저(optimizer) 최적화의 과정은 옵티마이저를 통해 이루어짐 배치 경사하강법 무작위로 부여된 매개변수에서부터 가장 가까운 로컬 미니멈에 멈추게 됨 SGD(stochasticgradientdescent) 배치 경사하강법의 단점으로 고안된 방법 하나의 데이터마다 .. 2022. 8. 12.
주성분분석 주성분 분석(principle component analysis, PCA)고차원의데이터를 저차원의 데이터로 차원 축소하는 알고리즘주로 고차원의 데이터를 3차원 이하의 데이터로 바꾸어서 시각화 하는데 많이 사용됨유용한 정보만 이용하여 적은 메모리에 저장하거나 데이터의 노이즈를 줄이고 싶을 때 사용되는 알고리즘  3차원 이상의 데이터를 저차원으로 줄이는데 많이 사용됨ex)2차원 공간의 데이터들을 1차원 공간의 데이터로 변환 특징데이터의 분산을 최대한 유지하면서 저차원으로 데이터를 변환분산을 유지하는 이유: 데이터의 고유한 특성을 최대한 유지하기 위해아래 그림 중 왼쪽 보다 오른쪽이 데이터가 중첩되지 않아 정보의 유실이 가장 적다고 할 수 있음(=데이터의 분산이 가장 크다)분산이 가장 큰 차원은 수학적으로 공.. 2022. 8. 8.
군집화 군집화(clustering) 비지도학습의 일종으로, 데이ㅓ의 특징만으로 비슷한 데이터들끼리 모아 군집된 클래스로 분류 ex) 큰 키 그룹, 작은 키 그룹 K 평균 알고리즘 데이터 간의 거리를 사용해 가까운 거리에 있는 데이터끼리 하나의 클래스로 묶는 간단하면서도 강력한 군집화 알고리즘 진행 순서 1. 데이터 준비 2. 몇 개의 클래스로 분류할 것인지 설정 3. 클러스터 최초 중심 설정 4. 데이터를 가장 가까운 클러스터로 지정 5. 클러스터 중심을 클러스터에 속한 데이터들의 가운데 위치로 변경 6. 클러스터 중심이 바뀌지 않을 때까지 4번부터 5번 과정을 반복적으로 수행 데이터 준비 수치화된 데이터여야 함 몇 개의 클래스로 분류할 것인지 설정 K는 몇 개의 클래스로 분류할 것인지를 나타내는 변수 클러스터.. 2022. 8. 1.
KNN K-최근접 이웃(k-Nearest Neighbor, kNN) 데이터 분류에 사용되는 간단한 지도학습 알고리즘 장점: 상대적으로 이해하기 쉬움 단점: 다른 알고리즘에 비해 연산 속도가 느림 이웃: 가까이 존재하는 데이터 kNN알고리즘: 현재 데이터를 특정값으로 분류하기 위해 기존의 데이터안에서 현재 데이터로부터 가까운 k개의 데이터를 찾아 k개의 레이블 중 가장 많이 분류된 값으로 현재의 데이터를 분류하는 알고리즘 K는 주로 홀수로 설정 최적의 k를 찾기 위해 보통 검증 데이터를 통해 가장 정확도가 높은 k를 kNN알고리즘의 k로 선정 장점 - 다른 머신러닝알고리즘보다 이해하기 쉬움 - 숫자로 구분된 속성에 우수한 성능을 보임 - 별도의 모델 학습이 필요 없음(lazy learning) → 실시간 데이터를.. 2022. 7. 29.
728x90