要約
私たちは、視覚と言語モデル (VLM) の内部表現と、VLM がタスク表現をどのようにエンコードするかを調査します。
テキストまたは画像入力を使用して、例または指示を通じて指定されたタスクを検討します。
驚くべきことに、概念的に類似したタスクは、その指定方法に関係なく、同様のタスク ベクトル表現にマッピングされることがわかりました。
私たちの調査結果は、VLM 内のトークンが回答を出力するために、入力、タスク、回答という 3 つの異なるフェーズを経るということを示唆しています。このプロセスは、さまざまなモダリティや仕様にわたって一貫しています。
VLM で識別されるタスク ベクトルは、あるモダリティ (テキストなど) で派生し、別のモダリティ (画像など) に転送できるほど一般的です。
さらに、アンサンブルイグザンプラと命令ベースのタスクベクトルがより優れたタスク表現を生成することがわかりました。
まとめると、これらの洞察は、VLM の基礎となるメカニズム、特に、さまざまなモダリティやタスク仕様にわたって共有された方法でタスクを表現する能力に光を当てます。
プロジェクトページ: https://task-vectors-are-cross-modal.github.io
要約(オリジナル)
We investigate the internal representations of vision-and-language models (VLMs) and how they encode task representations. We consider tasks specified through examples or instructions, using either text or image inputs. Surprisingly, we find that conceptually similar tasks are mapped to similar task vector representations, regardless of how they are specified. Our findings suggest that to output answers, tokens in VLMs undergo three distinct phases: input, task, and answer, a process which is consistent across different modalities and specifications. The task vectors we identify in VLMs are general enough to be derived in one modality (e.g., text) and transferred to another (e.g., image). Additionally, we find that ensembling exemplar and instruction based task vectors produce better task representations. Taken together, these insights shed light on the underlying mechanisms of VLMs, particularly their ability to represent tasks in a shared manner across different modalities and task specifications. Project page: https://task-vectors-are-cross-modal.github.io.
arxiv情報
著者 | Grace Luo,Trevor Darrell,Amir Bar |
発行日 | 2024-10-29 17:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google