BOK-VQA: Bilingual outside Knowledge-Based Visual Question Answering via Graph Representation Pretraining

要約

最近開発された GPT4 などの生成モデルにおける現在の研究の方向性は、マルチモーダルおよび多言語入力に関連する知識情報を見つけて答えを提供することを目的としています。
このような研究状況のもと、マルチモーダルシステムの代表的なタスクであるビジュアル質問応答(VQA)タスクの多言語評価の需要が高まっています。
したがって、この研究では、多言語使用に拡張できるバイリンガル外部知識 VQA (BOK-VQA) データセットを提案します。
提案されたデータには、17K の画像、韓国語と英語の 17K の質問と回答のペア、質問と回答の内容に関連する 280K の知識情報のインスタンスが含まれています。
また、グラフ埋め込みの形式で BOK-VQA データの知識情報を事前トレーニングすることで、知識情報を VQA システムに効果的に注入できるフレームワークも紹介します。
最後に、詳細な分析により、構築された学習データに含まれる知識情報が VQA に実際にどのような効果をもたらすかを実証しました。

要約(オリジナル)

The current research direction in generative models, such as the recently developed GPT4, aims to find relevant knowledge information for multimodal and multilingual inputs to provide answers. Under these research circumstances, the demand for multilingual evaluation of visual question answering (VQA) tasks, a representative task of multimodal systems, has increased. Accordingly, we propose a bilingual outside-knowledge VQA (BOK-VQA) dataset in this study that can be extended to multilingualism. The proposed data include 17K images, 17K question-answer pairs for both Korean and English and 280K instances of knowledge information related to question-answer content. We also present a framework that can effectively inject knowledge information into a VQA system by pretraining the knowledge information of BOK-VQA data in the form of graph embeddings. Finally, through in-depth analysis, we demonstrated the actual effect of the knowledge information contained in the constructed training data on VQA.

arxiv情報

著者 Minjun Kim,Seungwoo Song,Youhan Lee,Haneol Jang,Kyungtae Lim
発行日 2024-03-15 07:17:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク