要約
本論文は、大規模言語モデル(LLM)が、テキストデータのみで訓練されているにもかかわらず、言語のない純粋な視覚タスクに対して驚くほど強力なエンコーダーであることを明らかにする。さらに興味深いことに、このことは、これまで見過ごされてきたシンプルな戦略、すなわち、事前に訓練されたLLMの凍結された変換ブロックを、視覚的トークンを直接処理する構成エンコーダ層として採用することで達成できる。私たちの研究は、LLMをコンピュータビジョンタスクに活用する限界を押し広げるものであり、通常、言語プロンプト、入力、または出力に関連するマルチモーダルな視覚言語セットアップを必要とする従来の慣行から大きく逸脱している。我々のアプローチは、純粋な2Dおよび3Dの視覚認識タスク(例:画像および点群分類)、時間モデリングタスク(例:行動認識)、非意味タスク(例:運動予測)、およびマルチモーダルタスク(例:2D/3D視覚質問応答および画像テキスト検索)を含む、多様なタスクにおいて一貫して性能を向上させることを実証する。このような改善は一般的な現象であり、様々なタイプのLLM(例えばLLaMAやOPT)や異なるLLM変換ブロックに適用可能である。さらに、視覚的符号化における事前学習済みLLMの有効性を説明するために、情報フィルタリング仮説を提案する–事前学習済みLLM変換ブロックは、有益な視覚的トークンを識別し、その効果をさらに増幅する。この仮説は、LLM変換ブロックを用いた訓練後の特徴活性化が、関連する領域により強く集中するという観察によって経験的に支持される。我々の研究が、LLMの活用に関する新たな展望を喚起し、その基礎となるメカニズムの理解を深めることを期待している。コードはhttps://github.com/ziqipang/LM4VisualEncoding。
要約(オリジナル)
This paper reveals that large language models (LLMs), despite being trained solely on textual data, are surprisingly strong encoders for purely visual tasks in the absence of language. Even more intriguingly, this can be achieved by a simple yet previously overlooked strategy — employing a frozen transformer block from pre-trained LLMs as a constituent encoder layer to directly process visual tokens. Our work pushes the boundaries of leveraging LLMs for computer vision tasks, significantly departing from conventional practices that typically necessitate a multi-modal vision-language setup with associated language prompts, inputs, or outputs. We demonstrate that our approach consistently enhances performance across a diverse range of tasks, encompassing pure 2D and 3D visual recognition tasks (e.g., image and point cloud classification), temporal modeling tasks (e.g., action recognition), non-semantic tasks (e.g., motion forecasting), and multi-modal tasks (e.g., 2D/3D visual question answering and image-text retrieval). Such improvements are a general phenomenon, applicable to various types of LLMs (e.g., LLaMA and OPT) and different LLM transformer blocks. We additionally propose the information filtering hypothesis to explain the effectiveness of pre-trained LLMs in visual encoding — the pre-trained LLM transformer blocks discern informative visual tokens and further amplify their effect. This hypothesis is empirically supported by the observation that the feature activation, after training with LLM transformer blocks, exhibits a stronger focus on relevant regions. We hope that our work inspires new perspectives on utilizing LLMs and deepening our understanding of their underlying mechanisms. Code is available at https://github.com/ziqipang/LM4VisualEncoding.
arxiv情報
著者 | Ziqi Pang,Ziyang Xie,Yunze Man,Yu-Xiong Wang |
発行日 | 2024-05-06 15:45:30+00:00 |
arxivサイト | arxiv_id(pdf) |