NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning

要約

本稿ではプロトタイプベースの視覚言語推論問題について考察する。
既存の手法では、1) リソース需要の増大とトレーニング時間の延長、2) 過剰な学習可能パラメーターへの対応、3) 単一のモダリティのみに基づく微調整という 3 つの主要な課題に直面していることがわかりました。
これらの課題は、視覚言語モデル (VLM) を下流のタスクに適応させる能力を妨げます。
この批判的な観察に動機付けられて、我々は、より優れた視覚言語推論のために神経常微分方程式を利用する、NODE-Adapter と呼ばれる新しい方法を提案します。
視覚的モダリティとテキストモダリティの両方を最大限に活用し、クラスのプロトタイプをより効果的かつ正確に推定するために、クロスモーダル プロトタイプの構築とニューラル常微分方程式を使用したクロスモーダル プロトタイプの最適化という 2 つの段階にメソッドを分割します。
具体的には、VLM を利用して、手作りのプロンプトをテキスト機能にエンコードし、数ショットのサポート画像を視覚機能にエンコードします。
次に、テキスト特徴と視覚特徴をそれぞれ平均することによってテキスト プロトタイプと視覚プロトタイプを推定し、テキスト プロトタイプと視覚プロトタイプを適応的に組み合わせてクロスモーダル プロトタイプを構築します。
プロトタイプのバイアスを軽減するために、ニューラル ODE を使用してプロトタイプの最適化プロセスを初期値問題としてモデル化し、連続勾配の流れを推定します。
少数ショット分類、ドメイン一般化、人間とオブジェクトのインタラクションに関する視覚的推論をカバーする広範な実験結果は、提案された方法が既存の最先端のアプローチを大幅に上回ることを示しています。

要約(オリジナル)

In this paper, we consider the problem of prototype-based vision-language reasoning problem. We observe that existing methods encounter three major challenges: 1) escalating resource demands and prolonging training times, 2) contending with excessive learnable parameters, and 3) fine-tuning based only on a single modality. These challenges will hinder their capability to adapt Vision-Language Models (VLMs) to downstream tasks. Motivated by this critical observation, we propose a novel method called NODE-Adapter, which utilizes Neural Ordinary Differential Equations for better vision-language reasoning. To fully leverage both visual and textual modalities and estimate class prototypes more effectively and accurately, we divide our method into two stages: cross-modal prototype construction and cross-modal prototype optimization using neural ordinary differential equations. Specifically, we exploit VLM to encode hand-crafted prompts into textual features and few-shot support images into visual features. Then, we estimate the textual prototype and visual prototype by averaging the textual features and visual features, respectively, and adaptively combine the textual prototype and visual prototype to construct the cross-modal prototype. To alleviate the prototype bias, we then model the prototype optimization process as an initial value problem with Neural ODEs to estimate the continuous gradient flow. Our extensive experimental results, which cover few-shot classification, domain generalization, and visual reasoning on human-object interaction, demonstrate that the proposed method significantly outperforms existing state-of-the-art approaches.

arxiv情報

著者 Yi Zhang,Chun-Wun Cheng,Ke Yu,Zhihai He,Carola-Bibiane Schönlieb,Angelica I. Aviles-Rivero
発行日 2024-07-11 17:04:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク