목차
0. Abstract
1. Introduction
2. Related work
2.1 Multi-modal learning for image labeling
3. Conditional Adversarial Nets
3.1 Generative Adversarial Nets
3.2 Conditional Adversarial Nets
4. Experimental Results
4.1 Unimodal
4.2 Multimodal
5. Future Work
0. Abstract
Generative Adversarial Nets에 조건을 추가한 조건부버전
(G와 D에 조건을 지정하는 데이터 y를 공급)
1. Introduction
GAN
생성모델을 훈련하여 난해한 확률적 계산 근사 어려움 해결의 대안
장점
- Markov Chain 필요 없음
- 역전파만 사용하여 기울기를 얻음
- 학습 중 inference 필요 없음
- 모델 쉽게 통합 가능
- 이미지 품질 좋음
생성 모델에 추가 정보를 더해 모델을 조건화하여 데이터 생성 프로세스 진행
2. Related work
2.1 Multi-modal learning for image labeling
문제
1. 예측된 출력범주의 범주가 많으면 이를 수용하기 위한 모델 확장이 어려움
2. 일대일 매핑은 쉬우나 일대다 매핑은 어려움
해결방법
1의 대안: 다른 modalities의 추가 정보 활용
2의 대안: 조건부 확률적 generative 모델 사용
3. Conditional Adversarial Nets
3.1 Generative Adversarial Nets
G: 데이터 분포 캡쳐
D: 훈련 데이터에서 샘플이 나올 확률 추정
X에 대한 G의 분포 pg를 학습하기 위해, 사전 노이즈 분포 pz(z)에서 데이터 공간으로 매핑하는 G(z; θg)함수 생성
D(z; θd)는 X가 pg 가 아닌 훈련 데이터에서 나올 확률 출력
G, D 동시 학습
목적함수
3.2 Conditional Adversarial Nets
G와 D에 y라는 추가정보를 조건으로 하여 모델 확장
이때 y는 class label이나 다른 modality의 데이터가 될 수 있음
목적함수
네트워크 구조
4. Experimental Results
4.1 Unimodal
MNIST 데이터에 대해 one-hot 인코딩된 클래스 레이블을 조건으로 하여 CGAN훈련
G에서 z와 y를 각각 hidden layer로 매핑하고 하나의 레이어로 합쳐짐
28*28차원 MNIST 샘플 생성
활성화 함수: ReLU, 출력증에서 sigmoid 사용
D에서 x와 y를 각각 다른 hidden layer에 전달해서 하나의 레이어에 매핑
활성화 함수: maxout, 출력층에서 sigmoid 사용
SGD with Momentum optimizer, LR decay, Dropout등 사용
MNIST 데이터셋의 Parzen window-based log-likelihood estimate
CGAN결과는 다른 네트워크 기반과 비슷하지만 다른 접근 방식에 비해 성능이 좋음
효능의 증명이라기 보다는 개념 증명으로 제시
Hyperparameter 최적화와 구조에 대한 탐색을 통해 조건부 모델이 비조건부 결과와 일치하거나 초과 해야함
레이블을 주어 조건부로 생성한 이미지
4.2 Multimodal
z에 이미지에 관한 feature를 추가정보로 입력하여 tag-vector 생성하는 실험 진행
MIR Flickr 25,000 dataset
이미지 feature를 추출하기 위해 convolution model, language model 사용
Pre-train된 CNN을 사용해서 마지막 fc layer의 출력값을 generator에 input이 되는 보조변수로 활용
평가
각 이미지에 대해 100개의 샘플을 생성하고 각 샘플에 대한 단어 벡터 표현의 코사인 유사도 사용
상위 20개의 가장 가까운 단어 찾음
전체 100개 샘플 중에서 가장 많이 사용되는 상위 10개의 단어 선택
5. Future Work
CGAN의 잠재력과 응용 가능성
정교한 모델과 성능 및 특성에 대한 철저한 분석 제시 기대
개별적인 태그가 아닌 여러 개의 태그를 동시에 사용하면 더 좋은 결과를 얻을 것
언어 모델 학습을 위한 교육 계획 구축
'논문 > review' 카테고리의 다른 글
Forecasting LNG prices with the kernel vector autoregressive model 리뷰 (0) | 2022.08.05 |
---|---|
ImageNet Classification with Deep Convolutional Neural Networks 리뷰 (0) | 2022.07.22 |
Fast Human Pose Estimation 리뷰 (0) | 2022.07.08 |
Image-to-Image Translation with Conditional Adversarial Networks 리뷰 (0) | 2022.07.06 |
Generative Adversarial Nets 리뷰 (0) | 2022.07.04 |