Interpreting and Controlling Vision Foundation Models via Text Explanations

要約

CLIP などの大規模な事前トレーニング済み視覚基盤モデルは、さまざまな視覚タスクの事実上のバックボーンとなっています。
ただし、そのブラックボックスの性質により、これらのモデルの予測の背後にある根本的なルールを理解し、モデルの動作を制御することは未解決の課題のままです。
ビジョントランスフォーマーの潜在トークンを自然言語で解釈するためのフレームワークを紹介します。
潜在トークンが与えられると、私たちのフレームワークはトランスフォーマーのローカル操作を使用して最終層までセマンティック情報を保持し、説明に最も近いテキストを取得します。
私たちのアプローチにより、追加のモデルトレーニングやデータ収集を必要とせずに、モデルの視覚的推論手順を理解することができます。
得られた解釈に基づいて、私たちのフレームワークは、モデルの推論動作を制御し、バイアスや偽の相関に対するモデルの堅牢性を向上させるモデル編集を可能にします。

要約(オリジナル)

Large-scale pre-trained vision foundation models, such as CLIP, have become de facto backbones for various vision tasks. However, due to their black-box nature, understanding the underlying rules behind these models’ predictions and controlling model behaviors have remained open challenges. We present a framework for interpreting vision transformer’s latent tokens with natural language. Given a latent token, our framework retains its semantic information to the final layer using transformer’s local operations and retrieves the closest text for explanation. Our approach enables understanding of model visual reasoning procedure without needing additional model training or data collection. Based on the obtained interpretations, our framework allows for model editing that controls model reasoning behaviors and improves model robustness against biases and spurious correlations.

arxiv情報

著者 Haozhe Chen,Junfeng Yang,Carl Vondrick,Chengzhi Mao
発行日 2023-10-16 17:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク