Multimodal Graph Learning for Generative Tasks

要約

マルチモーダル学習は複数のデータ モダリティを組み合わせて、モデルが利用できるデータの種類と複雑さを拡大します (たとえば、プレーン テキストから画像とキャプションのペアまで)。
ほとんどのマルチモーダル学習アルゴリズムは、画像とキャプションのペアや音声とテキストのペアなど、2 つのモダリティからの単純な 1 対 1 のデータ ペアをモデル化することに重点を置いています。
ただし、現実世界のほとんどの設定では、さまざまなモダリティのエンティティが、1 対 1 のマッピングを超えて、より複雑かつ多面的な方法で相互に作用します。
私たちは、これらの複雑な関係をグラフとして表現することを提案します。これにより、任意の数のモダリティでデータを取得できるようになり、サンプルごとに柔軟に変化できるモダリティ間の複雑な関係が得られます。
この目標に向けて、私たちは、相互に関係構造を持つ複数のマルチモーダルな近傍から情報を取得するための一般的かつ体系的なフレームワークであるマルチモーダル グラフ学習 (MMGL) を提案します。
特に、事前トレーニング済み言語モデル (LM) に基づいて構築され、マルチモーダルな近隣コンテキストでテキスト生成を強化することを目的とした、生成タスク用の MMGL に焦点を当てています。
私たちは MMGL によって提起された 3 つの研究課題を研究します: (1) スケーラビリティの問題を回避しながら、事前トレーニングされた LM に複数の近隣情報を注入するにはどうすればよいでしょうか?
(2) 多峰性近傍間のグラフ構造情報を LM に注入するにはどうすればよいでしょうか?
(3) パラメータ効率の高い方法で近隣コンテキストから学習するように事前トレーニングされた LM を微調整するにはどうすればよいでしょうか?
私たちは、MMGL に関するこれら 3 つの疑問に答えるために広範な実験を実施し、その実証結果を分析して将来の MMGL 研究への道を切り開きます。

要約(オリジナル)

Multimodal learning combines multiple data modalities, broadening the types and complexity of data our models can utilize: for example, from plain text to image-caption pairs. Most multimodal learning algorithms focus on modeling simple one-to-one pairs of data from two modalities, such as image-caption pairs, or audio-text pairs. However, in most real-world settings, entities of different modalities interact with each other in more complex and multifaceted ways, going beyond one-to-one mappings. We propose to represent these complex relationships as graphs, allowing us to capture data with any number of modalities, and with complex relationships between modalities that can flexibly vary from one sample to another. Toward this goal, we propose Multimodal Graph Learning (MMGL), a general and systematic framework for capturing information from multiple multimodal neighbors with relational structures among them. In particular, we focus on MMGL for generative tasks, building upon pretrained Language Models (LMs), aiming to augment their text generation with multimodal neighbor contexts. We study three research questions raised by MMGL: (1) how can we infuse multiple neighbor information into the pretrained LMs, while avoiding scalability issues? (2) how can we infuse the graph structure information among multimodal neighbors into the LMs? and (3) how can we finetune the pretrained LMs to learn from the neighbor context in a parameter-efficient manner? We conduct extensive experiments to answer these three questions on MMGL and analyze the empirical results to pave the way for future MMGL research.

arxiv情報

著者 Minji Yoon,Jing Yu Koh,Bryan Hooi,Ruslan Salakhutdinov
発行日 2023-10-12 17:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク