Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment

要約

マルチモーダル LLM は、マルチモーダル入力の理解において驚くべきレベルの熟練度に達し、ますます強力なモデルを開発するための広範な研究を推進しています。
しかし、これらのモデルの根底にあるメカニズムの理解と説明にはあまり注意が払われてきませんでした。
既存の説明可能性研究のほとんどは、これらのモデルを最終状態でのみ調査し、トレーニング中に発生する動的な表現の変化を見逃しています。
この研究では、隠れ状態表現の進化を体系的に分析し、新しいマルチモーダル タスクに特化するために微調整によってモデルの内部構造がどのように変更されるかを明らかにします。
コンセプトベースのアプローチを使用して、隠れた状態を解釈可能な視覚的およびテキストのコンセプトにマッピングし、トレーニングの進行に伴うモダリティ全体でエンコードされたコンセプトの変化を追跡できるようにします。
また、シフト ベクトルを使用してこれらの概念の変化を捉える方法も示します。
これらのシフト ベクトルを使用すると、元のモデル内の概念をシフトすることで、微調整された概念を復元できます。
最後に、モデルのステアリングに対する調査結果の実際的な影響を調査し、回答タイプやキャプションのスタイルを変更したり、モデルを特定の回答に偏らせるなど、トレーニングなしでマルチモーダル LLM の動作を調整できることを示しました。
私たちの研究は、微調整を通じてマルチモーダル表現がどのように進化するかを明らかにし、マルチモーダル タスクにおけるモデル適応を解釈するための新しい視点を提供します。
このプロジェクトのコードは、https://github.com/mshukor/xl-vlms で公開されています。

要約(オリジナル)

Multimodal LLMs have reached remarkable levels of proficiency in understanding multimodal inputs, driving extensive research to develop increasingly powerful models. However, much less attention has been paid to understanding and explaining the underlying mechanisms of these models. Most existing explainability research examines these models only in their final states, overlooking the dynamic representational shifts that occur during training. In this work, we systematically analyze the evolution of hidden state representations to reveal how fine-tuning alters the internal structure of a model to specialize in new multimodal tasks. Using a concept-based approach, we map hidden states to interpretable visual and textual concepts, enabling us to trace changes in encoded concepts across modalities as training progresses. We also demonstrate the use of shift vectors to capture these concepts changes. These shift vectors allow us to recover fine-tuned concepts by shifting those in the original model. Finally, we explore the practical impact of our findings on model steering, showing that we can adjust multimodal LLMs behaviors without any training, such as modifying answer types, captions style, or biasing the model toward specific responses. Our work sheds light on how multimodal representations evolve through fine-tuning and offers a new perspective for interpreting model adaptation in multimodal tasks. The code for this project is publicly available at https://github.com/mshukor/xl-vlms.

arxiv情報

著者 Pegah Khayatan,Mustafa Shukor,Jayneel Parekh,Matthieu Cord
発行日 2025-01-06 13:37:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク