要約
Visual Question Answering (VQA) は、自然言語処理とコンピューター ビジョン技術を組み合わせたチャレンジ タスクであり、徐々にマルチモーダル大規模言語モデル (MLLM) のベンチマーク テスト タスクになります。
私たちの調査の目的は、VQA の開発の概要と最新モデルの詳細な説明をタイムリーに提供することです。
この調査では、画像とテキストの自然言語理解の最新の統合と、中核となる VQA タスクに関する画像質問情報に基づく知識推論モジュールが提供されます。
さらに、モーダル情報の抽出と視覚言語事前学習モデルおよび VQA のマルチモーダル大規模言語モデルとの融合における最近の進歩について詳しく説明します。
また、内部知識の抽出と外部知識の導入を詳細に説明することにより、VQA における知識推論の進歩を徹底的にレビューします。
最後に、VQA のデータセットとさまざまな評価指標を示し、将来の研究の可能な方向性について説明します。
要約(オリジナル)
Visual Question Answering (VQA) is a challenge task that combines natural language processing and computer vision techniques and gradually becomes a benchmark test task in multimodal large language models (MLLMs). The goal of our survey is to provide an overview of the development of VQA and a detailed description of the latest models with high timeliness. This survey gives an up-to-date synthesis of natural language understanding of images and text, as well as the knowledge reasoning module based on image-question information on the core VQA tasks. In addition, we elaborate on recent advances in extracting and fusing modal information with vision-language pretraining models and multimodal large language models in VQA. We also exhaustively review the progress of knowledge reasoning in VQA by detailing the extraction of internal knowledge and the introduction of external knowledge. Finally, we present the datasets of VQA and different evaluation metrics and discuss possible directions for future work.
arxiv情報
著者 | Jiayi Kuang,Jingyou Xie,Haohao Luo,Ronghao Li,Zhe Xu,Xianfeng Cheng,Yinghui Li,Xika Lin,Ying Shen |
発行日 | 2024-11-26 16:21:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google