Multimodal Neurons in Pretrained Text-Only Transformers

要約

言語モデルは、あるモダリティで学習した表象を、他のモダリティの下流のタスクに汎化する驚くべき能力を示す。この能力を個々のニューロンまで追跡できるのだろうか?我々は、自己教師付き視覚エンコーダーと、画像からテキストへのタスクで学習された単一の線形射影を用いて、凍結されたテキスト変換器を視覚で補強した場合について研究する。投影層の出力は、画像内容を記述する言語に即座に復号可能ではなく、その代わりに、モダリティ間の変換が変換器の内部でより深く行われることがわかった。我々は、視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を識別し、それらがモデルの残差ストリームに注入する概念を解読する手順を紹介する。一連の実験において、マルチモーダルニューロンが、入力全体にわたって特定の視覚的概念に作用し、画像キャプション付けに系統的な因果効果を持つことを示す。

要約(オリジナル)

Language models demonstrate remarkable capacity to generalize representations learned in one modality to downstream tasks in other modalities. Can we trace this ability to individual neurons? We study the case where a frozen text transformer is augmented with vision using a self-supervised visual encoder and a single linear projection learned on an image-to-text task. Outputs of the projection layer are not immediately decodable into language describing image content; instead, we find that translation between modalities occurs deeper within the transformer. We introduce a procedure for identifying ‘multimodal neurons’ that convert visual representations into corresponding text, and decoding the concepts they inject into the model’s residual stream. In a series of experiments, we show that multimodal neurons operate on specific visual concepts across inputs, and have a systematic causal effect on image captioning.

arxiv情報

著者 Sarah Schwettmann,Neil Chowdhury,Antonio Torralba
発行日 2023-08-03 05:27:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク