要約
視覚的な質問応答(VQA)では、多くの場合、外部の知識に依存する視覚的な概念と言語のセマンティクスを理解する必要があります。
ほとんどの既存の方法は、事前にトレーニングされた言語モデルや非構造化テキストを利用しますが、これらのリソースの知識は不完全でノイズが多いことがよくあります。
いくつかの方法は、しばしば集中的な構造化された知識を持つ知識グラフ(KG)を使用することを好みますが、研究はまだかなり予備的なものです。
この論文では、後期知識からテキストへの注入による知識駆動型VQA手法であるLaKoを提案します。
外部KGを効果的に組み込むために、トリプルをテキストに転送し、レイトインジェクションメカニズムを提案します。
最後に、効果的なエンコーダー-デコーダーパラダイムを使用したテキスト生成タスクとしてVQAについて説明します。
OKVQAデータセットを使用した評価では、私たちの方法は最先端の結果を達成します。
要約(オリジナル)
Visual question answering (VQA) often requires an understanding of visual concepts and language semantics, which relies on external knowledge. Most existing methods exploit pre-trained language models or/and unstructured text, but the knowledge in these resources are often incomplete and noisy. Some methods prefer to use knowledge graphs (KGs) which often have intensive structured knowledge, but the research is still quite preliminary. In this paper, we propose LaKo, a knowledge-driven VQA method via Late Knowledge-to-text Injection. To effectively incorporate an external KG, we transfer triples into text and propose a late injection mechanism. Finally we address VQA as a text generation task with an effective encoder-decoder paradigm. In the evaluation with OKVQA datasets, our method achieves state-of-the-art results.
arxiv情報
著者 | Zhuo Chen,Yufeng Huang,Jiaoyan Chen,Yuxia Geng,Yin Fang,Jeff Pan,Ningyu Zhang,Wen Zhang |
発行日 | 2022-07-26 13:29:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google