VQA: Visual Question Answering vs Competition Baseline
VQA task의 시초격인 논문이다.
VQA challenge의 전반적인 개요와 dataset, Base model등을 다루고 있다.
VQA task의 시초격인 논문이다.
VQA challenge의 전반적인 개요와 dataset, Base model등을 다루고 있다.
이번에는 openai에서 발표한 논문인 GPT를 review해보겠다
GPT3는 이전에 review한 transformer구조를 활용하여 Language understanding을 효과적으로 만들었다.
자연어를 이해는 text추론, 질문에 대한 대답, 의미의 유사성 평가, 문서분류등을 포함하고 있다. 라벨링 되지 않은 text들을 매우 넘처나지만, 특정 task의 학습을 위해 labed된 text들은 매우 적기때문에 좋은 모델을 학습시키는것은 매우 힘들다. Language 모델을 unlabled된 text로 generative pretrain을 한이후 각각의 task에 맞게 fine-tunning을 하였다. 이러한 많은 unlabed text를 사용하여 학습하였다. 이전의 연구와는 달리,필요한 task에 fine-tuning하여 응용하는 것이 매우 효과적이다.
Seuence transduction model들은 현재 복잡한 recurrent한 구조 (RNN) 이나 encoder decoder를 포함한 CNN이 주를 이룬다. 가장 좋은성능을 내는 model또한 attention mechanism을 이용하여 encoder와 decoder를 연결하는 형태이다.
이 논문에서는 새로운 방법인 Transformer를 제안
이는 오로지 attention mechanism만을 사용!
이는 RNN이나 CNN보다 더 병렬화가 가능하고 train하는데 적은 시간이 걸린다!
WMT 2014 English to-German data를 사용하여 BLEU라는 score에서 28.4점을 얻었다.(여러 논문을 읽다보면 자주 등장하는 이 BLUE score은 정리해 놓은게 있는데 추후에 posting )
이는 앙상블을 포함한 이전의 가장 좋은 성능보다 2BLUE가 높다.