VQA (Visual Question Answering)

Boostcamp에서 만난 동료들과 함께 2021 인공지능 온라인 경진대회에 참여했습니다.
총 10개의 과제중 시각장애인 시스템 개발을 위한 VQA 모델이라는 Competition에 참여하였습니다.

개요

이미지를 보고 주어진 질문에 답변하는 Visual Question Answering 모델 개발
VQA란 시각정보를 기반으로 질문에 답변하는 시스템입니다.
실내 및 실외 생활 거주 환경에서 촬영된 이미지와 그에 관련된 질문, 대답이 세트로 이루어져 있습니다.
총 224,464개의 이미지 파일과 702,135건의 질문-답변 쌍이 train data로 주어졌습니다.

관련 논문 review

  1. VQA: Visual Question Answering
  2. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
  3. Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge
  4. Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks
  5. UNITER: UNiversal Image-TExt Representation Learning

VQA (Visual Question Answering)

https://jo-member.github.io/2021/07/12/VQA/

Author

jo-member

Posted on

2021-07-12

Updated on

2021-07-12

Licensed under

Comments