Learning 1D Causal Visual Representation with De-focus Attention Networks

要約

モダリティの違いにより、視覚モデルと言語モデルの異種アーキテクチャの開発が行われてきました。
通常、画像には 2D の非因果モデリングが必要ですが、テキストには 1D の因果モデリングが使用されます。
この違いは、統合されたマルチモーダル モデルを構築する際に重大な課題を引き起こします。
この論文では、1D 因果モデリングを使用して画像を表現する実現可能性を検討します。
我々は、既存の 1D 因果的視覚モデルにおいて、少数の視覚トークンに注意が過度に集中する「過度の焦点」の問題を特定しました。
「オーバーフォーカス」の問題は、モデルがさまざまな視覚的特徴を抽出し、最適化のための効果的な勾配を受け取る能力を妨げます。
これに対処するために、学習可能なバンドパス フィルターを使用してさまざまな注意パターンを作成する、焦点ぼけ注意ネットワークを提案します。
トレーニング中に、大規模でスケジュールされたドロップ パス レートと、グローバル理解タスク用のグローバルにプールされた機能の補助損失が導入されます。
これら 2 つの戦略により、モデルはより広範囲のトークンに対応し、ネットワークの最適化が強化されます。
広範な実験により、私たちのアプローチの有効性が検証され、全体的な認識、密な予測、マルチモーダル理解などのタスクにおいて、1D 因果的視覚表現が 2D 非因果的表現と同等に機能できることが実証されました。
コードは https://github.com/OpenGVLab/De-focus-Attendance-Networks でリリースされています。

要約(オリジナル)

Modality differences have led to the development of heterogeneous architectures for vision and language models. While images typically require 2D non-causal modeling, texts utilize 1D causal modeling. This distinction poses significant challenges in constructing unified multi-modal models. This paper explores the feasibility of representing images using 1D causal modeling. We identify an ‘over-focus’ issue in existing 1D causal vision models, where attention overly concentrates on a small proportion of visual tokens. The issue of ‘over-focus’ hinders the model’s ability to extract diverse visual features and to receive effective gradients for optimization. To address this, we propose De-focus Attention Networks, which employ learnable bandpass filters to create varied attention patterns. During training, large and scheduled drop path rates, and an auxiliary loss on globally pooled features for global understanding tasks are introduced. These two strategies encourage the model to attend to a broader range of tokens and enhance network optimization. Extensive experiments validate the efficacy of our approach, demonstrating that 1D causal visual representation can perform comparably to 2D non-causal representation in tasks such as global perception, dense prediction, and multi-modal understanding. Code is released at https://github.com/OpenGVLab/De-focus-Attention-Networks.

arxiv情報

著者 Chenxin Tao,Xizhou Zhu,Shiqian Su,Lewei Lu,Changyao Tian,Xuan Luo,Gao Huang,Hongsheng Li,Yu Qiao,Jie Zhou,Jifeng Dai
発行日 2024-06-06 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク