Grounding Language Models to Images for Multimodal Generation

要約

事前トレーニング済みのテキストのみの言語モデルを視覚ドメインに接地する効率的な方法を提案し、任意にインターリーブされた画像とテキストのデータを処理および生成できるようにします。
私たちの方法は、コンテキスト内学習や自由形式のテキスト生成など、大規模なテキストのみの事前トレーニングから学習した言語モデルの機能を活用しています。
言語モデルを凍結したままにし、入力と出力の線形レイヤーを微調整して、モダリティ間の相互作用を可能にします。
これにより、モデルは任意にインターリーブされた画像とテキストの入力を処理し、取得した画像をインターリーブした自由形式のテキストを生成できます。
コンテキスト画像検索やマルチモーダル ダイアログなどの根拠のあるタスクで強力なゼロ ショット パフォーマンスを達成し、魅力的なインタラクティブ機能を紹介します。
私たちのアプローチは、あらゆる既製の言語モデルで機能し、視覚的に根拠のある設定で事前トレーニング済みの言語モデルを活用するための効果的で一般的なソリューションへの道を開きます。

要約(オリジナル)

We propose an efficient method to ground pretrained text-only language models to the visual domain, enabling them to process and generate arbitrarily interleaved image-and-text data. Our method leverages the abilities of language models learnt from large scale text-only pretraining, such as in-context learning and free-form text generation. We keep the language model frozen, and finetune input and output linear layers to enable cross-modality interactions. This allows our model to process arbitrarily interleaved image-and-text inputs, and generate free-form text interleaved with retrieved images. We achieve strong zero-shot performance on grounded tasks such as contextual image retrieval and multimodal dialogue, and showcase compelling interactive abilities. Our approach works with any off-the-shelf language model and paves the way towards an effective, general solution for leveraging pretrained language models in visually grounded settings.

arxiv情報

著者 Jing Yu Koh,Ruslan Salakhutdinov,Daniel Fried
発行日 2023-01-31 18:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク