MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text

要約

言語モデルは膨大な量の世界知識をパラメーターに暗黙的に保存しますが、非常に大きなモデルでさえ、まれなエンティティやイベントに関する情報のエンコードに失敗することが多く、膨大な計算コストが発生します。
最近、REALM、RAG、RETRO などの検索拡張モデルは、外部のノンパラメトリック インデックスを活用して世界の知識を言語生成に組み込み、制約されたモデル サイズで優れたパフォーマンスを発揮しました。
ただし、これらの方法は、テキストの知識のみを取得することに制限されており、画像などの他のモダリティ (その多くはテキストでカバーされていない情報が含まれている) のユビキタス量の知識を無視しています。
この制限に対処するために、最初の Multimodal Retrieval-Augmented Transformer (MuRAG) を提案します。これは、外部のノンパラメトリック マルチモーダル メモリにアクセスして言語生成を増強します。
MuRAG は、共同の対照的損失と生成的損失を使用して、大規模な画像テキストとテキストのみのコーパスを組み合わせて事前トレーニングされています。
特定のクエリに答えるために、画像とテキストの両方を取得して推論する必要がある 2 つの異なるデータセット (WebQA と MultimodalQA) で実験を行います。
私たちの結果は、MuRAG が最先端の精度を達成し、両方のデータセットで、ディストラクタと完全な wiki 設定の両方で、既存のモデルを 10 ~ 20\% 絶対的に上回ることを示しています。

要約(オリジナル)

While language Models store a massive amount of world knowledge implicitly in their parameters, even very large models often fail to encode information about rare entities and events, while incurring huge computational costs. Recently, retrieval-augmented models, such as REALM, RAG, and RETRO, have incorporated world knowledge into language generation by leveraging an external non-parametric index and have demonstrated impressive performance with constrained model sizes. However, these methods are restricted to retrieving only textual knowledge, neglecting the ubiquitous amount of knowledge in other modalities like images — much of which contains information not covered by any text. To address this limitation, we propose the first Multimodal Retrieval-Augmented Transformer (MuRAG), which accesses an external non-parametric multimodal memory to augment language generation. MuRAG is pre-trained with a mixture of large-scale image-text and text-only corpora using a joint contrastive and generative loss. We perform experiments on two different datasets that require retrieving and reasoning over both images and text to answer a given query: WebQA, and MultimodalQA. Our results show that MuRAG achieves state-of-the-art accuracy, outperforming existing models by 10-20\% absolute on both datasets and under both distractor and full-wiki settings.

arxiv情報

著者 Wenhu Chen,Hexiang Hu,Xi Chen,Pat Verga,William W. Cohen
発行日 2022-10-20 17:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク