본문 바로가기

AI&ML/ML algorithms8

로지스틱 회귀 로지스틱 회귀(logistic regression) 선형 회귀를 입력으로 받아 특정 레이블로 분류하는 모델 시그모이드 출력값은 0~1까지의 값을 가지므로 확률로 사용될 수 있음 - 0.5 이상의 경우 참 - 0.5 이하의 경우 거짓 로지스틱 회귀 학습 경사하강법으로 최적의 w를 찾고 비용함수로 크로스 엔트로피(cross entropy) 사용 (선형 회귀의 경우 MSE 사용) 비선형성을 지니고 있는 시그모이드 함수 때문 선형 vs 비선형 y=w_1 x+w_2 x^2+w_3 x^3+w_4 x^4는 y=w_1 x_1+w_2 x_2+w_3 x_3+w_4 x_4라고 표현이 가능하므로 선형함수 로지스틱 회귀=1/(1+e^(-y))는 로지스틱 회귀=1/(1+e^(-(w_1 x_1+w_2 x_2+w_3 x_3+w_4 .. 2022. 9. 9.
앙상블 앙상블 여러 개의 분류 모델을 조합해서 더 나은 성능을 내는 방법 배깅(bagging) 한 가지 분류 모델을 여러 개 만들어서 서로 다른 학습 데이터로 학습시킨 후(부트스트랩), 동일한 테스트 데이터에 대해 서로 다른 예측값들을 투표를 통해(어그리게이팅) 가장 높은 예측값으로 결정하는 앙상블 기법 - 부트스트랩 데이터를 조금 편향되게 샘플링하는 기법 - 어그리게이팅 여러 분류 모델이 에측한 값들을 조합해서 하나의 결론을 도출하는 과정 - 하드보팅 배깅에 포함된 분류모델들 중에서 최대 득표를 받은 예측값으로 결론 도출 - 소프트보팅 모든 분류값의 확률 리턴 각 분류값별 확률을 더해준 값을 점수로 사용해 최대점수를 가진 분류값을 결론으로 도출 - 랜덤 포레스트 여러 의사결정 트리를 배깅해서 예측을 실행하는 .. 2022. 8. 26.
Naive Bayes 나이브베이즈(Naïve Bayes) 확률 기반 머신러닝 분류 알고리즘 나이브 베이즈분류 알고리즘 나이브(단순)하게 독립적인 사건으로 가정하고, 이 독립 사건들을 베이즈 이론에 대입시켜 가장 높은 확률의 레이블로 분류를 실행하는 알고리즘 가우시안 나이브 베이즈 분류 특징들의 값들이 정규분포(가우시간 분포)되어있다는 가정하에 조건부 확률을 계산하여, 연속적인 성질이 있는 특징이 있는 데이터를 분류하는데 적합 다항 분포 나이브 베이즈(Multinomial Naïve Bayes) 데이터 특징이 출현 횟수로 표현됐을 때 사용 베르누이 나이브 베이즈 모델(Bernoulli Naïve Bayes) 데이터의 특징이 0과 1로 표현됐을 때 사용 스무딩 학습 데이터에 없던 데이터가 출현해도 빈도수에 1을 더해 확률이 0이.. 2022. 8. 15.
군집화 군집화(clustering) 비지도학습의 일종으로, 데이ㅓ의 특징만으로 비슷한 데이터들끼리 모아 군집된 클래스로 분류 ex) 큰 키 그룹, 작은 키 그룹 K 평균 알고리즘 데이터 간의 거리를 사용해 가까운 거리에 있는 데이터끼리 하나의 클래스로 묶는 간단하면서도 강력한 군집화 알고리즘 진행 순서 1. 데이터 준비 2. 몇 개의 클래스로 분류할 것인지 설정 3. 클러스터 최초 중심 설정 4. 데이터를 가장 가까운 클러스터로 지정 5. 클러스터 중심을 클러스터에 속한 데이터들의 가운데 위치로 변경 6. 클러스터 중심이 바뀌지 않을 때까지 4번부터 5번 과정을 반복적으로 수행 데이터 준비 수치화된 데이터여야 함 몇 개의 클래스로 분류할 것인지 설정 K는 몇 개의 클래스로 분류할 것인지를 나타내는 변수 클러스터.. 2022. 8. 1.
KNN K-최근접 이웃(k-Nearest Neighbor, kNN) 데이터 분류에 사용되는 간단한 지도학습 알고리즘 장점: 상대적으로 이해하기 쉬움 단점: 다른 알고리즘에 비해 연산 속도가 느림 이웃: 가까이 존재하는 데이터 kNN알고리즘: 현재 데이터를 특정값으로 분류하기 위해 기존의 데이터안에서 현재 데이터로부터 가까운 k개의 데이터를 찾아 k개의 레이블 중 가장 많이 분류된 값으로 현재의 데이터를 분류하는 알고리즘 K는 주로 홀수로 설정 최적의 k를 찾기 위해 보통 검증 데이터를 통해 가장 정확도가 높은 k를 kNN알고리즘의 k로 선정 장점 - 다른 머신러닝알고리즘보다 이해하기 쉬움 - 숫자로 구분된 속성에 우수한 성능을 보임 - 별도의 모델 학습이 필요 없음(lazy learning) → 실시간 데이터를.. 2022. 7. 29.
의사결정나무 의사결정나무(decision tree) 데이터 분류 및 회귀에 사용되는 지도학습 알고리즘 장점 다른 알고리즘에 비해 결과값을 이해하기 쉬움 정확도가 높음 단점 과대적합되기 쉬움 데이터의 특징을 바탕으로 데이터를 연속으로 분리하다 보면 결국 하나의 정답으로 분류 핵심: 의미있는 질문을 하는 것이 중요 → 데이터의 특징 속에서 분류에 큰 영향을 끼치는 특징을 상위 노드로 선택 영향력 크기 비교 방법 - 엔트로피 - 지니계수 의사결정 트리 알고리즘과 정보 엔트로피의 관계 정보를 획득한다=정답에 대한 불확실성이 줄어든다 엔트로피(entropy) : 정보 이론(information theory)에서불확실성을 수치적으로 표현한 값 정보 이득(information gain)=질문전의 엔트로피-질문 후의 엔트로피=불확.. 2022. 7. 25.
728x90