要約
マルチモーダル トレーニングの最近の進歩により、統一モデル内での画像の理解と生成の統合が大幅に改善されました。
この研究では、視覚言語モデル (VLM) が画像理解タスクをどのように処理するかを調査し、特に視覚情報がどのように処理され、テキスト領域に転送されるかに焦点を当てています。
画像とテキストの両方を生成する VLM とテキストのみを出力する VLM を比較し、情報フローにおける重要な違いを強調します。
マルチモーダル出力を備えたモデルでは、画像とテキストの埋め込みが残差ストリーム内でより分離されていることがわかります。
さらに、視覚的なトークンからテキストのトークンまで情報を交換する方法もモデルによって異なります。
テキストのみを出力する VLM は分散通信パターンを示し、複数の画像トークンを通じて情報が交換されます。
対照的に、画像とテキストの生成用にトレーニングされたモデルは、視覚情報の狭き門として機能する単一のトークンに依存します。
この単一トークンをアブレーションすると、画像理解タスクのパフォーマンスが大幅に低下することを示します。
さらに、このトークンを変更すると、画像セマンティクスの効果的な操作が可能になり、ターゲットを絞ったローカル介入によってモデルのグローバルな動作を確実に制御できることがわかります。
要約(オリジナル)
Recent advances in multimodal training have significantly improved the integration of image understanding and generation within a unified model. This study investigates how vision-language models (VLMs) handle image-understanding tasks, specifically focusing on how visual information is processed and transferred to the textual domain. We compare VLMs that generate both images and text with those that output only text, highlighting key differences in information flow. We find that in models with multimodal outputs, image and text embeddings are more separated within the residual stream. Additionally, models vary in how information is exchanged from visual to textual tokens. VLMs that only output text exhibit a distributed communication pattern, where information is exchanged through multiple image tokens. In contrast, models trained for image and text generation rely on a single token that acts as a narrow gate for the visual information. We demonstrate that ablating this single token significantly deteriorates performance on image understanding tasks. Furthermore, modifying this token enables effective steering of the image semantics, showing that targeted, local interventions can reliably control the model’s global behavior.
arxiv情報
著者 | Alessandro Serra,Francesco Ortu,Emanuele Panizon,Lucrezia Valeriani,Lorenzo Basile,Alessio Ansuini,Diego Doimo,Alberto Cazzaniga |
発行日 | 2024-12-09 16:39:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google