要約
大規模な事前に訓練されたモデルは、言語および画像タスクで顕著な成功を収めており、少数のショットアクション認識(FSAR)のドメインでのクリップなどの事前に訓練された画像モデルの適用を調査するために、ますます多くの研究を導きます。
ただし、現在の方法は一般にいくつかの問題に悩まされています。1)直接的な微調整は、多くの場合、事前に訓練されたモデルの一般化能力を損なうことがよくあります。
2)視覚タスクでは、タスク固有の情報の調査には不十分です。
3)セマンティック注文情報は、通常、テキストモデリング中に見落とされがちです。
4)既存のクロスモーダルアライメント手法は、マルチモーダル情報の時間的結合を無視します。
これらに対処するために、画像エンコーダーとテキストエンコーダーの両方のパラメーター効率の高いデュアル適応方法であるタスクアダプター++を提案します。
具体的には、さまざまな少ないショット学習タスクでバリエーションを最大限に活用するために、機能抽出中に最も差別的な情報がよく見られるように、画像エンコーダーのタスク固有の適応を設計します。
さらに、大規模な言語モデル(LLMS)を活用して、各アクションクラスの詳細なシーケンシャルサブアクション説明を生成し、セマンティックオーダーアダプターをテキストエンコーダに導入して、これらのサブアクション間の順次関係を効果的にモデル化します。
最後に、セマンティックな説明と同じ時間段階に存在するように視覚的な機能を積極的にマップする革新的な微調整されたクロスモーダルアライメント戦略を開発します。
広範な実験は、提案された方法の有効性と優位性を完全に実証し、5つのベンチマークで一貫して最先端のパフォーマンスを達成します。
このコードは、https://github.com/jaulin-bage/task-adapter-ppでオープンソーシングされています。
要約(オリジナル)
Large-scale pre-trained models have achieved remarkable success in language and image tasks, leading an increasing number of studies to explore the application of pre-trained image models, such as CLIP, in the domain of few-shot action recognition (FSAR). However, current methods generally suffer from several problems: 1) Direct fine-tuning often undermines the generalization capability of the pre-trained model; 2) The exploration of task-specific information is insufficient in the visual tasks; 3) The semantic order information is typically overlooked during text modeling; 4) Existing cross-modal alignment techniques ignore the temporal coupling of multimodal information. To address these, we propose Task-Adapter++, a parameter-efficient dual adaptation method for both image and text encoders. Specifically, to make full use of the variations across different few-shot learning tasks, we design a task-specific adaptation for the image encoder so that the most discriminative information can be well noticed during feature extraction. Furthermore, we leverage large language models (LLMs) to generate detailed sequential sub-action descriptions for each action class, and introduce semantic order adapters into the text encoder to effectively model the sequential relationships between these sub-actions. Finally, we develop an innovative fine-grained cross-modal alignment strategy that actively maps visual features to reside in the same temporal stage as semantic descriptions. Extensive experiments fully demonstrate the effectiveness and superiority of the proposed method, which achieves state-of-the-art performance on 5 benchmarks consistently. The code is open-sourced at https://github.com/Jaulin-Bage/Task-Adapter-pp.
arxiv情報
著者 | Congqi Cao,Peiheng Han,Yueran zhang,Yating Yu,Qinyi Lv,Lingtong Min,Yanning zhang |
発行日 | 2025-05-09 12:34:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google