要約
言語と視覚の相乗効果を活用するマルチモーダル言語生成は、急速に拡大している分野です。
しかし、既存の視覚言語モデルは、複雑な言語理解を必要とするタスクにおいて課題に直面しています。
この問題に対処するために、重要度サンプリング重み (VLIS) としての視覚言語モデルを導入します。これは、さらなるトレーニングを必要とせずに、視覚言語モデルの視覚調整機能と単峰性のテキストのみの言語モデルの言語理解を組み合わせた新しいフレームワークです。
視覚言語モデルから各画像とテキストの点ごとの相互情報を抽出し、その値を重要度サンプリング重みとして使用して、テキストのみのモデルからトークンの尤度を調整します。
VLIS は、常識的な理解 (WHOOPS、OK-VQA、ScienceQA) や複雑なテキスト生成 (Concadia、画像段落キャプション、ROCStories) など、さまざまなタスクに関するビジョン言語モデルを改善します。
私たちの結果は、VLIS がマルチモーダル言語生成の有望な新しい方向性を示していることを示唆しています。
要約(オリジナル)
Multimodal language generation, which leverages the synergy of language and vision, is a rapidly expanding field. However, existing vision-language models face challenges in tasks that require complex linguistic understanding. To address this issue, we introduce Visual-Language models as Importance Sampling weights (VLIS), a novel framework that combines the visual conditioning capability of vision-language models with the language understanding of unimodal text-only language models without further training. It extracts pointwise mutual information of each image and text from a visual-language model and uses the value as an importance sampling weight to adjust the token likelihood from a text-only model. VLIS improves vision-language models on diverse tasks, including commonsense understanding (WHOOPS, OK-VQA, and ScienceQA) and complex text generation (Concadia, Image Paragraph Captioning, and ROCStories). Our results suggest that VLIS represents a promising new direction for multimodal language generation.
arxiv情報
著者 | Jiwan Chung,Youngjae Yu |
発行日 | 2023-12-19 13:01:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google