要約
この論文では、大規模言語モデル (LLM) が、テキスト データのみでトレーニングされているにもかかわらず、言語が存在しない純粋な視覚的なタスクに対して驚くほど強力なエンコーダーであることを明らかにしました。
さらに興味深いことに、これは、ビジュアル トークンを直接処理するための構成エンコーダー層として、事前トレーニングされた LLM からの凍結トランスフォーマー ブロックを採用するという、単純だがこれまで見落とされていた戦略によって実現できます。
私たちの取り組みは、コンピュータ ビジョン タスクに LLM を活用する限界を押し広げ、通常、関連する言語プロンプト、入力、または出力を備えたマルチモーダル ビジョン言語セットアップを必要とする従来の慣行から大幅に逸脱しています。
私たちのアプローチが、純粋な 2D および 3D の視覚認識タスク (例: 画像および点群の分類)、時間モデリング タスク (例: 動作認識)、非意味論的タスク (例:
動き予測)、およびマルチモーダルタスク(2D/3D 視覚的質問応答や画像テキスト検索など)。
このような改善は一般的な現象であり、さまざまなタイプの LLM (LLaMA や OPT など) やさまざまな LLM 変換ブロックに適用できます。
さらに、ビジュアル エンコーディングにおける事前トレーニングされた LLM の有効性を説明するために、情報フィルタリング仮説を提案します。事前トレーニングされた LLM トランスフォーマー ブロックは、有益なビジュアル トークンを識別し、その効果をさらに増幅します。
この仮説は、LLM 変換ブロックでトレーニングした後の特徴のアクティベーションが、関連する領域により強く集中しているという観察によって経験的に裏付けられています。
私たちの研究が、LLM の利用に関する新たな視点を呼び起こし、その根底にあるメカニズムについての理解を深めてくれることを願っています。
コードは https://github.com/ziqipang/LM4VisualEncoding で入手できます。
要約(オリジナル)
This paper reveals that large language models (LLMs), despite being trained solely on textual data, are surprisingly strong encoders for purely visual tasks in the absence of language. Even more intriguingly, this can be achieved by a simple yet previously overlooked strategy — employing a frozen transformer block from pre-trained LLMs as a constituent encoder layer to directly process visual tokens. Our work pushes the boundaries of leveraging LLMs for computer vision tasks, significantly departing from conventional practices that typically necessitate a multi-modal vision-language setup with associated language prompts, inputs, or outputs. We demonstrate that our approach consistently enhances performance across a diverse range of tasks, encompassing pure 2D and 3D visual recognition tasks (e.g., image and point cloud classification), temporal modeling tasks (e.g., action recognition), non-semantic tasks (e.g., motion forecasting), and multi-modal tasks (e.g., 2D/3D visual question answering and image-text retrieval). Such improvements are a general phenomenon, applicable to various types of LLMs (e.g., LLaMA and OPT) and different LLM transformer blocks. We additionally propose the information filtering hypothesis to explain the effectiveness of pre-trained LLMs in visual encoding — the pre-trained LLM transformer blocks discern informative visual tokens and further amplify their effect. This hypothesis is empirically supported by the observation that the feature activation, after training with LLM transformer blocks, exhibits a stronger focus on relevant regions. We hope that our work inspires new perspectives on utilizing LLMs and deepening our understanding of their underlying mechanisms. Code is available at https://github.com/ziqipang/LM4VisualEncoding.
arxiv情報
著者 | Ziqi Pang,Ziyang Xie,Yunze Man,Yu-Xiong Wang |
発行日 | 2023-10-19 17:59:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google