要約
自己回帰ビジョン言語モデル(VLM)は、単一のモデル内で多くのタスクを処理できますが、この機能を可能にする表現は不透明なままです。
VLMSは、概念的に同等の入力を共有タスクベクトルに調整します。これは、モダリティ(テキスト、画像)と形式(例、命令)に不変であり、VLM処理を簡素化する可能性があります。
さまざまなタスクとモデルアーキテクチャで、クロスモーダル転送(あるモダリティで導出されたタスクベクトルの能力)を介して測定します。
タスクベクトルは高度に圧縮されていますが、この単一のベクトルがこのクロスモーダルケースに固有の完全なタスク情報を使用してモデルを促していることがわかります。
さらに、タスクベクトルは、基本言語モデルから微調整されたビジョン言語のカウンターパートに転送できること、および例を必要とせずに指示からのみ導出できることを示します。
まとめると、私たちの調査結果は、VLMSがタスク情報を内部的に処理する方法と、それらが異なるモダリティを一般的なセマンティック表現にどのようにマッピングするかに光を当てています。
プロジェクトページ:https://vlm-cross-modal-reps.github.io。
要約(オリジナル)
Autoregressive vision-language models (VLMs) can handle many tasks within a single model, yet the representations that enable this capability remain opaque. We find that VLMs align conceptually equivalent inputs into a shared task vector, which is invariant to modality (text, image) and format (examples, instruction), and may simplify VLM processing. We measure this alignment via cross-modal transfer — the ability of a task vector derived in one modality to trigger the correct generation in another — on a range of tasks and model architectures. Although the task vector is highly compressed, we find that this single vector outperforms prompting the model with the full task information, unique to this cross-modal case. Furthermore, we show that task vectors can be transferred from a base language model to its fine-tuned vision-language counterpart, and that they can be derived solely from instructions without the need for examples. Taken together, our findings shed light on how VLMs internally process task information, and how they map different modalities into common semantic representations. Project page: https://vlm-cross-modal-reps.github.io.
arxiv情報
著者 | Grace Luo,Trevor Darrell,Amir Bar |
発行日 | 2025-05-07 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google