Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature

要約

Visual Question Answering (VQA)は、自然言語処理と画像予測における最近の問題であり、研究にとって新たな関心分野である。この分野では、アルゴリズムが特定の画像に関する質問に答える必要がある。本調査の執筆時点で、25の最新の研究が分析されている。また、6つのデータセットが分析され、ダウンロードのためのリンクが提供されている。本調査では、この分野におけるいくつかの最新の研究を調査し、結果、最先端技術、共通エラー、今後の研究者のための改善点を含む、より深い分析と比較を提供するものである。

要約(オリジナル)

Visual Question Answering (VQA) is an emerging area of interest for researches, being a recent problem in natural language processing and image prediction. In this area, an algorithm needs to answer questions about certain images. As of the writing of this survey, 25 recent studies were analyzed. Besides, 6 datasets were analyzed and provided their link to download. In this work, several recent pieces of research in this area were investigated and a deeper analysis and comparison among them were provided, including results, the state-of-the-art, common errors, and possible points of improvement for future researchers.

arxiv情報

著者 Ana Cláudia Akemi Matsuki de Faria,Felype de Castro Bastos,José Victor Nogueira Alves da Silva,Vitor Lopes Fabris,Valeska de Sousa Uchoa,Décio Gonçalves de Aguiar Neto,Claudio Filipi Goncalves dos Santos
発行日 2023-06-02 15:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク