분류 전체보기418 이상치 제거 방법 IQR (Interquartile Range) 방법 주로 데이터 분포가 정규분포를 따르지 않을 때, 대부분의 데이터가 중앙에 몰려 있지 않고 극단적인 값을 갖는 경우에 유용 장점: 이상치를 식별하기 위한 단순하고 직관적인 방법 데이터 분포에 대한 가정이 필요하지 않음 단점: 데이터의 분포에 따라서는 유효한 이상치가 잘못 제거될 수 있음 데이터의 밀도가 불균형하거나 이상치가 여러 그룹에 흩어져 있을 때 적용이 제한될 수 있음 표준 편차 기반 제거 데이터가 정규분포를 따르고 있을 때, 즉 대부분의 데이터가 중앙에 몰려 있고 극단적인 값을 갖는 경우에 유용 장점: 이상치 식별을 위한 빠르고 간단한 방법 데이터가 정규분포를 따른다는 가정하에 사용 가능 단점: 데이터가 정규분포를 따르지 않을 때 제대로 작동하지 .. 2024. 3. 22. 결측값의 종류 결측값 발생에 어떤 인과관계가 있느냐 or 인과관계의 정도에 따라 분류 1. 완전 무작위 결측(missing completely at random, MCAR) 결측값이 변수의 성질과 전혀 무관하게 발생하는 경우 결측값의 발생에 어떠한 의도가 없는 상태로, 결측값의 존재가 전혀 문제되지 않는다. 결측값 발생에 이상적인 경우 (현실에서는 그럴 가능성이 놏지 않다) ex) 무작위 누락, 미기입 2. 무작위 결측(missing at random, MAR) 결측의 발생은 오로지 측정된 값에 의해서만 설명되며, 결측값은 측정된 값과는 독립임을 가정 측정된 값으로부터 결측값 추정이 가능하므로 결측값 대체 방법 적용 가능 결측값의 발생이 인과관계에 의한 것이 아니라 추정 가능한 상태 ex) 여자의 몸무게는 적지 않을 .. 2022. 9. 16. 로지스틱 회귀 로지스틱 회귀(logistic regression) 선형 회귀를 입력으로 받아 특정 레이블로 분류하는 모델 시그모이드 출력값은 0~1까지의 값을 가지므로 확률로 사용될 수 있음 - 0.5 이상의 경우 참 - 0.5 이하의 경우 거짓 로지스틱 회귀 학습 경사하강법으로 최적의 w를 찾고 비용함수로 크로스 엔트로피(cross entropy) 사용 (선형 회귀의 경우 MSE 사용) 비선형성을 지니고 있는 시그모이드 함수 때문 선형 vs 비선형 y=w_1 x+w_2 x^2+w_3 x^3+w_4 x^4는 y=w_1 x_1+w_2 x_2+w_3 x_3+w_4 x_4라고 표현이 가능하므로 선형함수 로지스틱 회귀=1/(1+e^(-y))는 로지스틱 회귀=1/(1+e^(-(w_1 x_1+w_2 x_2+w_3 x_3+w_4 .. 2022. 9. 9. GRU - Electric Production Estimation 문제 분석(목적)이전 시점을 이용해서 현재 시점의 데이터를 예측하는 model 사용하기처음 진행해보는 과정인만큼 가장 쉽게 적용해볼 수 있는 데이터에 적용해본 후 복잡하고 큰 데이터셋에 대해 진행할 예정데이터의 순서에 의해 영향을 받는 시계열 데이터의 경우에 좋은 효과를 보이는 RNN, LSTM, GRU와 같은 model 이용해보기데이터 선택Kaggle Dataset에서 Time Series 중 Electric Production Dataset데이터들을 고를 중 내가 원하는 방법으로 분석하기에 가장 기본적인 데이터 구조를 갖는다고 생각하여 선택하게 됨데이터셋에 대한 설명은 추가로 없었음데이터 수집pd.read_csv를 이용하여 데이터프레임 형태로 불러오려 했으나 시간 데이터를 정리된 형태로 한번에 불러오.. 2022. 9. 2. 앙상블 앙상블 여러 개의 분류 모델을 조합해서 더 나은 성능을 내는 방법 배깅(bagging) 한 가지 분류 모델을 여러 개 만들어서 서로 다른 학습 데이터로 학습시킨 후(부트스트랩), 동일한 테스트 데이터에 대해 서로 다른 예측값들을 투표를 통해(어그리게이팅) 가장 높은 예측값으로 결정하는 앙상블 기법 - 부트스트랩 데이터를 조금 편향되게 샘플링하는 기법 - 어그리게이팅 여러 분류 모델이 에측한 값들을 조합해서 하나의 결론을 도출하는 과정 - 하드보팅 배깅에 포함된 분류모델들 중에서 최대 득표를 받은 예측값으로 결론 도출 - 소프트보팅 모든 분류값의 확률 리턴 각 분류값별 확률을 더해준 값을 점수로 사용해 최대점수를 가진 분류값을 결론으로 도출 - 랜덤 포레스트 여러 의사결정 트리를 배깅해서 예측을 실행하는 .. 2022. 8. 26. Learning Phrase Representation using RNN Encoder-Decoder for Statistical Machine Translation 리뷰 목차 0. Abstract 1. Introduction 2. RNN Encoder-Decoder 2.1 Preliminary: Recurrent Neural Networks 2.2 RNN Encoder-Decoder 2.3 Hidden Unit that Adaptively Remembers and Forgets 3. Statistical Machine Translation 3.1 Scoring Phrase Pairs with RNN Encoder-Decoder 3.2 Related Approaches: Neural Networks in Machine Translation 4. Experiments 4.1 Data and Baseline System 4.1.1 RNN Encoder-Decoder 4.1.2.. 2022. 8. 19. 이전 1 ··· 64 65 66 67 68 69 70 다음 728x90