본문 바로가기
논문/review

Conditional Generative Adversarial Nets 리뷰

by ornni 2022. 6. 24.
728x90
반응형

 

목차

0. Abstract

1. Introduction

2. Related work

2.1 Multi-modal learning for image labeling

3. Conditional Adversarial Nets

3.1 Generative Adversarial Nets

3.2 Conditional Adversarial Nets

4. Experimental Results

4.1 Unimodal

4.2 Multimodal

5. Future Work


0. Abstract

 

Generative Adversarial Nets에 조건을 추가한 조건부버전

(G와 D에 조건을 지정하는 데이터 y를 공급)

 


1. Introduction

 

GAN

생성모델을 훈련하여 난해한 확률적 계산 근사 어려움 해결의 대안

 

장점

- Markov Chain 필요 없음

- 역전파만 사용하여 기울기를 얻음

- 학습 중 inference 필요 없음

- 모델 쉽게 통합 가능

- 이미지 품질 좋음

 

생성 모델에 추가 정보를 더해 모델을 조건화하여 데이터 생성 프로세스 진행


2. Related work


2.1 Multi-modal learning for image labeling

 

문제

1. 예측된 출력범주의 범주가 많으면 이를 수용하기 위한 모델 확장이 어려움

2. 일대일 매핑은 쉬우나 일대다 매핑은 어려움

 

해결방법

1의 대안: 다른 modalities의 추가 정보 활용

2의 대안: 조건부 확률적 generative 모델 사용

 


3. Conditional Adversarial Nets


3.1 Generative Adversarial Nets

 

G: 데이터 분포 캡쳐

D: 훈련 데이터에서 샘플이 나올 확률 추정

X에 대한 G의 분포 pg를 학습하기 위해, 사전 노이즈 분포 pz(z)에서 데이터 공간으로 매핑하는 G(z; θg)함수 생성

D(z; θd)는 X가 pg  아닌 훈련 데이터에서 나올 확률 출력

G, D 동시 학습

 

목적함수


3.2 Conditional Adversarial Nets

 

G와 D에 y라는 추가정보를 조건으로 하여 모델 확장

이때 y는 class label이나 다른 modality의 데이터가 될 수 있음

 

목적함수

.

네트워크 구조


4. Experimental Results


4.1 Unimodal

 

MNIST 데이터에 대해 one-hot 인코딩된 클래스 레이블을 조건으로 하여 CGAN훈련

 

G에서 z와 y를 각각 hidden layer로 매핑하고 하나의 레이어로 합쳐짐

28*28차원 MNIST 샘플 생성

활성화 함수: ReLU, 출력증에서 sigmoid 사용

 

D에서 x와 y를 각각 다른 hidden layer에 전달해서 하나의 레이어에 매핑

활성화 함수: maxout, 출력층에서 sigmoid 사용

 

SGD with Momentum optimizer, LR decay, Dropout등 사용


MNIST 데이터셋의 Parzen window-based log-likelihood estimate


CGAN결과는 다른 네트워크 기반과 비슷하지만 다른 접근 방식에 비해 성능이 좋음

효능의 증명이라기 보다는 개념 증명으로 제시

Hyperparameter 최적화와 구조에 대한 탐색을 통해 조건부 모델이 비조건부 결과와 일치하거나 초과 해야함

 

 


레이블을 주어 조건부로 생성한 이미지


4.2 Multimodal

 

z에 이미지에 관한 feature를 추가정보로 입력하여 tag-vector 생성하는 실험 진행

MIR Flickr 25,000 dataset

이미지 feature를 추출하기 위해 convolution model, language model 사용

Pre-train된 CNN을 사용해서 마지막 fc layer의 출력값을 generator에 input이 되는 보조변수로 활용

 

평가

각 이미지에 대해 100개의 샘플을 생성하고 각 샘플에 대한 단어 벡터 표현의 코사인 유사도 사용

상위 20개의 가장 가까운 단어 찾음

전체 100개 샘플 중에서 가장 많이 사용되는 상위 10개의 단어 선택


5. Future Work

 

CGAN의 잠재력과 응용 가능성

정교한 모델과 성능 및 특성에 대한 철저한 분석 제시 기대

개별적인 태그가 아닌 여러 개의 태그를 동시에 사용하면 더 좋은 결과를 얻을 것

언어 모델 학습을 위한 교육 계획 구축

 

 

반응형