SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition

要約

我々は、空撮ビデオアクション認識のプロンプト学習の長所を活用する、新しい学習アプローチであるソフト条件付きプロンプト学習 (SCP) を紹介します。
私たちのアプローチは、空中/ロボットの視覚認識のために入力ビデオ内のアクションに関連付けられた説明や指示にモデルが焦点を当てるのを支援することで、各エージェントのアクションを予測するように設計されています。
私たちの定式化は、学習可能なプロンプト、補助的な視覚情報、認識パフォーマンスを向上させるための大型ビジョン モデルなど、さまざまなプロンプトをサポートしています。
さまざまなビデオ入力の下でプロンプト専門家のプールからプロンプトを動的に生成することを学習する、ソフト条件付きプロンプト手法を紹介します。
タスクと同じ目的を共有することで、私たちが提案する SCP は、入力不変 (プロンプト専門家プール) および入力固有 (データ依存) のプロンプト知識を明示的に学習しながら、モデルの予測をガイドするプロンプトを最適化できます。
実際に、単一エージェントとマルチエージェントのアクションを含むシーンで構成される航空ビデオ データセット (奥多摩、NECDrone) で 3.17 ~ 10.2% の精度の向上が観察されました。
さらに、地上カメラのビデオに対するアプローチを評価して、有効性と一般化を検証し、データセット SSV2 で 1.0 ~ 3.6% の改善を達成します。
私たちのメソッドを ROS2 にも統合します。

要約(オリジナル)

We present a new learning approach, Soft Conditional Prompt Learning (SCP), which leverages the strengths of prompt learning for aerial video action recognition. Our approach is designed to predict the action of each agent by helping the models focus on the descriptions or instructions associated with actions in the input videos for aerial/robot visual perception. Our formulation supports various prompts, including learnable prompts, auxiliary visual information, and large vision models to improve the recognition performance. We present a soft conditional prompt method that learns to dynamically generate prompts from a pool of prompt experts under different video inputs. By sharing the same objective with the task, our proposed SCP can optimize prompts that guide the model’s predictions while explicitly learning input-invariant (prompt experts pool) and input-specific (data-dependent) prompt knowledge. In practice, we observe a 3.17-10.2% accuracy improvement on the aerial video datasets (Okutama, NECDrone), which consist of scenes with single-agent and multi-agent actions. We further evaluate our approach on ground camera videos to verify the effectiveness and generalization and achieve a 1.0-3.6% improvement on dataset SSV2. We integrate our method into the ROS2 as well.

arxiv情報

著者 Xijun Wang,Ruiqi Xian,Tianrui Guan,Fuxiao Liu,Dinesh Manocha
発行日 2024-08-28 16:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク