要約
ビジョン言語モデル(VLM)は、さまざまな下流タスクに取り組むために、大規模な事前訓練モデルを活用することにより、機械学習に革命をもたらしました。
ラベル、トレーニング、およびデータ効率が向上しましたが、最先端のVLMの多くは依然としてタスク固有のハイパーパラメーターチューニングを必要とし、テストサンプルを完全に活用できません。
これらの課題を克服するために、ラベル効率の高い適応と推論のためのグラフベースのアプローチを提案します。
私たちの方法は、タスク固有のチューニングなしで推論のためのラベル伝播を使用して、テキストプロンプト、少数のショットの例、およびテストサンプルを介してグラフを動的に構築します。
既存のゼロショットラベル伝播手法とは異なり、当社のアプローチには追加の非標識サポートセットが必要なく、動的グラフ拡張を介してテストサンプルマニホールドを効果的に活用します。
さらに、タスク適応の精度を向上させるために、コンテキストを意識した機能の再重視メカニズムを紹介します。
さらに、この方法は効率的なグラフ拡張をサポートし、リアルタイムの帰納的推論を可能にします。
細かい分類や分散除外の一般化など、下流のタスクに関する広範な評価は、アプローチの有効性を示しています。
ソースコードは、https://github.com/yushu-li/ecalpで入手できます。
要約(オリジナル)
Vision-language models (VLMs) have revolutionized machine learning by leveraging large pre-trained models to tackle various downstream tasks. Although label, training, and data efficiency have improved, many state-of-the-art VLMs still require task-specific hyperparameter tuning and fail to fully exploit test samples. To overcome these challenges, we propose a graph-based approach for label-efficient adaptation and inference. Our method dynamically constructs a graph over text prompts, few-shot examples, and test samples, using label propagation for inference without task-specific tuning. Unlike existing zero-shot label propagation techniques, our approach requires no additional unlabeled support set and effectively leverages the test sample manifold through dynamic graph expansion. We further introduce a context-aware feature re-weighting mechanism to improve task adaptation accuracy. Additionally, our method supports efficient graph expansion, enabling real-time inductive inference. Extensive evaluations on downstream tasks, such as fine-grained categorization and out-of-distribution generalization, demonstrate the effectiveness of our approach. The source code is available at https://github.com/Yushu-Li/ECALP.
arxiv情報
| 著者 | Yushu Li,Yongyi Su,Adam Goodge,Kui Jia,Xun Xu |
| 発行日 | 2025-02-28 18:17:06+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google