VQA (Visual Question Answering)
Boostcamp에서 만난 동료들과 함께 2021 인공지능 온라인 경진대회에 참여했습니다.
총 10개의 과제중 시각장애인 시스템 개발을 위한 VQA 모델이라는 Competition에 참여하였습니다.
개요
이미지를 보고 주어진 질문에 답변하는 Visual Question Answering 모델 개발
VQA란 시각정보를 기반으로 질문에 답변하는 시스템입니다.
실내 및 실외 생활 거주 환경에서 촬영된 이미지와 그에 관련된 질문, 대답이 세트로 이루어져 있습니다.
총 224,464개의 이미지 파일과 702,135건의 질문-답변 쌍이 train data로 주어졌습니다.
관련 논문 review
- VQA: Visual Question Answering
- Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
- Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge
- Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks
- UNITER: UNiversal Image-TExt Representation Learning
VQA (Visual Question Answering)