본문 바로가기

전체 글399

딥러닝 개념 딥러닝=심층신경망(Deep Neural Network, DNN) 뉴런으로 구성된 레이어를 여러 개 연결해서 구성한 네트워크 딥러닝의 탄생 딥러닝(=신경망): 인간의 뇌가 생각하는 방식을 머신러닝알고리즘으로 설계한 것 뉴런이 가지고 있는 정보는 가중치와 곱해져서 다음 레이어의 뉴런으로 전파 딥러닝과 머신러닝의 관계 딥러닝 손실함수 출력값과 정답의 차이 최적화(optimization) 매개변수를 조절해서 손실함수의 값을 최저로 만드는 과정 옵티마이저(optimizer) 최적화의 과정은 옵티마이저를 통해 이루어짐 배치 경사하강법 무작위로 부여된 매개변수에서부터 가장 가까운 로컬 미니멈에 멈추게 됨 SGD(stochasticgradientdescent) 배치 경사하강법의 단점으로 고안된 방법 하나의 데이터마다 .. 2022. 8. 12.
주성분분석 주성분 분석(principle component analysis, PCA)고차원의데이터를 저차원의 데이터로 차원 축소하는 알고리즘주로 고차원의 데이터를 3차원 이하의 데이터로 바꾸어서 시각화 하는데 많이 사용됨유용한 정보만 이용하여 적은 메모리에 저장하거나 데이터의 노이즈를 줄이고 싶을 때 사용되는 알고리즘  3차원 이상의 데이터를 저차원으로 줄이는데 많이 사용됨ex)2차원 공간의 데이터들을 1차원 공간의 데이터로 변환 특징데이터의 분산을 최대한 유지하면서 저차원으로 데이터를 변환분산을 유지하는 이유: 데이터의 고유한 특성을 최대한 유지하기 위해아래 그림 중 왼쪽 보다 오른쪽이 데이터가 중첩되지 않아 정보의 유실이 가장 적다고 할 수 있음(=데이터의 분산이 가장 크다)분산이 가장 큰 차원은 수학적으로 공.. 2022. 8. 8.
Forecasting LNG prices with the kernel vector autoregressive model 리뷰 목차 0. Abstract 1. Instruction 2. Kernel VAR 2.1 VAR 2.2 LS-SVM: Kernel VAR 3. Forecasting Results 4. Conclusions 0. Abstract LNG 가격은 다변수 시게열과 관련 이유: 비슷한 계약으로 거래됨 다변수 시계열 데이터 분석을 위해, vector autoregressive model은 사용하기에 성공적인 tool 중 하나 문제: vector autoregressive model 은 현재와 이전 데이터의 선형 회귀를 가정 → 신뢰할 수 없는 결과 발생 해결: vector autoregressive model에 최소 제곱 SVM을 가중치로 적용 다른 모델과의 비교는 제안된 kernel vector autoregress.. 2022. 8. 5.
군집화 군집화(clustering) 비지도학습의 일종으로, 데이ㅓ의 특징만으로 비슷한 데이터들끼리 모아 군집된 클래스로 분류 ex) 큰 키 그룹, 작은 키 그룹 K 평균 알고리즘 데이터 간의 거리를 사용해 가까운 거리에 있는 데이터끼리 하나의 클래스로 묶는 간단하면서도 강력한 군집화 알고리즘 진행 순서 1. 데이터 준비 2. 몇 개의 클래스로 분류할 것인지 설정 3. 클러스터 최초 중심 설정 4. 데이터를 가장 가까운 클러스터로 지정 5. 클러스터 중심을 클러스터에 속한 데이터들의 가운데 위치로 변경 6. 클러스터 중심이 바뀌지 않을 때까지 4번부터 5번 과정을 반복적으로 수행 데이터 준비 수치화된 데이터여야 함 몇 개의 클래스로 분류할 것인지 설정 K는 몇 개의 클래스로 분류할 것인지를 나타내는 변수 클러스터.. 2022. 8. 1.
KNN K-최근접 이웃(k-Nearest Neighbor, kNN) 데이터 분류에 사용되는 간단한 지도학습 알고리즘 장점: 상대적으로 이해하기 쉬움 단점: 다른 알고리즘에 비해 연산 속도가 느림 이웃: 가까이 존재하는 데이터 kNN알고리즘: 현재 데이터를 특정값으로 분류하기 위해 기존의 데이터안에서 현재 데이터로부터 가까운 k개의 데이터를 찾아 k개의 레이블 중 가장 많이 분류된 값으로 현재의 데이터를 분류하는 알고리즘 K는 주로 홀수로 설정 최적의 k를 찾기 위해 보통 검증 데이터를 통해 가장 정확도가 높은 k를 kNN알고리즘의 k로 선정 장점 - 다른 머신러닝알고리즘보다 이해하기 쉬움 - 숫자로 구분된 속성에 우수한 성능을 보임 - 별도의 모델 학습이 필요 없음(lazy learning) → 실시간 데이터를.. 2022. 7. 29.
의사결정나무 의사결정나무(decision tree) 데이터 분류 및 회귀에 사용되는 지도학습 알고리즘 장점 다른 알고리즘에 비해 결과값을 이해하기 쉬움 정확도가 높음 단점 과대적합되기 쉬움 데이터의 특징을 바탕으로 데이터를 연속으로 분리하다 보면 결국 하나의 정답으로 분류 핵심: 의미있는 질문을 하는 것이 중요 → 데이터의 특징 속에서 분류에 큰 영향을 끼치는 특징을 상위 노드로 선택 영향력 크기 비교 방법 - 엔트로피 - 지니계수 의사결정 트리 알고리즘과 정보 엔트로피의 관계 정보를 획득한다=정답에 대한 불확실성이 줄어든다 엔트로피(entropy) : 정보 이론(information theory)에서불확실성을 수치적으로 표현한 값 정보 이득(information gain)=질문전의 엔트로피-질문 후의 엔트로피=불확.. 2022. 7. 25.
728x90