MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text

要約

言語モデルは膨大な量の世界知識を暗黙のうちにパラメータに格納しているが、非常に大規模なモデルであっても、稀なエンティティやイベントに関する情報を符号化できないことが多く、また膨大な計算コストがかかっている。近年、REALM、RAG、RETROなどの検索拡張モデルが、外部のノンパラメトリック指標を利用することで言語生成に世界知識を組み込み、制約のあるモデルサイズにおいて素晴らしい性能を発揮している。しかし、これらの手法は、テキストの知識のみを検索することに限定されており、画像などの他のモダリティに存在する大量の知識(その多くはテキストではカバーされない情報を含む)を無視する。この制限に対処するため、我々は、外部のノンパラメトリックなマルチモーダル記憶装置にアクセスし、言語生成を補強する最初のマルチモーダル検索拡張トランスフォーマー(MuRAG)を提案する。MuRAGは、大規模な画像-テキストとテキストのみのコーパスを混合し、対照的損失と生成的損失を併用して事前学習される。我々は、与えられたクエリに答えるために、画像とテキストの両方を検索し推論する必要がある2つの異なるデータセットで実験を行う。WebQAとMultimodalQAである。その結果、MuRAGは、両データセット、distractorおよびfull-wikiの設定において、既存のモデルを10-20%絶対的に上回る、最先端の精度を達成することがわかった。

要約(オリジナル)

While language Models store a massive amount of world knowledge implicitly in their parameters, even very large models often fail to encode information about rare entities and events, while incurring huge computational costs. Recently, retrieval-augmented models, such as REALM, RAG, and RETRO, have incorporated world knowledge into language generation by leveraging an external non-parametric index and have demonstrated impressive performance with constrained model sizes. However, these methods are restricted to retrieving only textual knowledge, neglecting the ubiquitous amount of knowledge in other modalities like images — much of which contains information not covered by any text. To address this limitation, we propose the first Multimodal Retrieval-Augmented Transformer (MuRAG), which accesses an external non-parametric multimodal memory to augment language generation. MuRAG is pre-trained with a mixture of large-scale image-text and text-only corpora using a joint contrastive and generative loss. We perform experiments on two different datasets that require retrieving and reasoning over both images and text to answer a given query: WebQA, and MultimodalQA. Our results show that MuRAG achieves state-of-the-art accuracy, outperforming existing models by 10-20\% absolute on both datasets and under both distractor and full-wiki settings.

arxiv情報

著者 Wenhu Chen,Hexiang Hu,Xi Chen,Pat Verga,William W. Cohen
発行日 2022-10-06 13:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク