REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory

要約

タイトル: マルチソースのマルチモーダル知識メモリを用いたRetrieval-Augmented Visual-Language事前学習(REVEAL)

要約:
– REVEALはVisual Language Modelで、世界の知識を学習し、大規模なメモリにエンコードし、検索して知識ベースの質問を回答する能力を学びます。
– REVEALは4つの主要なコンポーネントで構成されており、大規模なメモリ、エンコーダー、リトリバー、ジェネレーターが含まれます。
– 大規模メモリは、統一されたエンコーダーを使用して、モーダルの世界知識(例:画像テキストペア、質問応答ペア、知識グラフトリプレット)をエンコードします。
– リトリバーは、「最も関連性のある知識エントリ」をメモリ内で検出し、ジェネレーターは、検索された知識を入力クエリと融合して出力を生成します。
– このアプローチの特徴は、メモリ、エンコーダー、リトリバー、ジェネレーターが、多量のデータに対してエンドツーエンドで事前学習される点です。
– さらに、このアプローチは多様なマルチモーダル知識ソースを使用できるため、著しい改善が示されています。
– この研究では、REVEALが視覚的な質問回答と画像の説明文において最高の結果を示すことが示されています。

要約(オリジナル)

In this paper, we propose an end-to-end Retrieval-Augmented Visual Language Model (REVEAL) that learns to encode world knowledge into a large-scale memory, and to retrieve from it to answer knowledge-intensive queries. REVEAL consists of four key components: the memory, the encoder, the retriever and the generator. The large-scale memory encodes various sources of multimodal world knowledge (e.g. image-text pairs, question answering pairs, knowledge graph triplets, etc) via a unified encoder. The retriever finds the most relevant knowledge entries in the memory, and the generator fuses the retrieved knowledge with the input query to produce the output. A key novelty in our approach is that the memory, encoder, retriever and generator are all pre-trained end-to-end on a massive amount of data. Furthermore, our approach can use a diverse set of multimodal knowledge sources, which is shown to result in significant gains. We show that REVEAL achieves state-of-the-art results on visual question answering and image captioning.

arxiv情報

著者 Ziniu Hu,Ahmet Iscen,Chen Sun,Zirui Wang,Kai-Wei Chang,Yizhou Sun,Cordelia Schmid,David A. Ross,Alireza Fathi
発行日 2023-04-03 08:32:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク