Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature

要約

Visual Question Answering (VQA) は、自然言語処理と画像予測における最近の問題であり、研究の関心が高まっている新たな分野です。
この分野では、アルゴリズムは特定の画像に関する質問に答える必要があります。
この調査の執筆時点では、25 件の最近の研究が分析されました。
さらに、6 つのデータセットが分析され、ダウンロード用のリンクが提供されました。
この研究では、この分野におけるいくつかの最近の研究が調査され、結果、最先端の技術、一般的なエラー、将来の研究者のための改善の可能性のある点など、それらの間のより深い分析と比較が提供されました。

要約(オリジナル)

Visual Question Answering (VQA) is an emerging area of interest for researches, being a recent problem in natural language processing and image prediction. In this area, an algorithm needs to answer questions about certain images. As of the writing of this survey, 25 recent studies were analyzed. Besides, 6 datasets were analyzed and provided their link to download. In this work, several recent pieces of research in this area were investigated and a deeper analysis and comparison among them were provided, including results, the state-of-the-art, common errors, and possible points of improvement for future researchers.

arxiv情報

著者 Ana Cláudia Akemi Matsuki de Faria,Felype de Castro Bastos,José Victor Nogueira Alves da Silva,Vitor Lopes Fabris,Valeska de Sousa Uchoa,Décio Gonçalves de Aguiar Neto,Claudio Filipi Goncalves dos Santos
発行日 2023-05-18 15:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク