Narrative Action Evaluation with Prompt-Guided Multimodal Interaction

要約

この論文では、物語的行動評価 (NAE) と呼ばれる新しい問題を調査します。
NAE は、アクションの実行を評価する専門的な解説を作成することを目的としています。
スコアベースのアクション品質評価や表面的な文章を含むビデオキャプションなどの従来のタスクとは異なり、NAE は自然言語で詳細な物語を作成することに焦点を当てています。
これらの物語は、客観的な評価とともに行動の複雑な説明を提供します。
NAE は、物語の柔軟性と評価の厳密性の両方が必要となるため、より困難なタスクです。
既存の可能な解決策の 1 つは、物語言語と評価情報が別々に予測されるマルチタスク学習を使用することです。
しかし、このアプローチでは、タスク間のばらつきや、言語情報と評価情報のモダリティの違いにより、個々のタスクのパフォーマンスが低下します。
これに対処するために、私たちはプロンプトガイド付きのマルチモーダルインタラクションフレームワークを提案します。
このフレームワークは、一対のトランスフォーマーを利用して、情報の異なるモダリティ間の相互作用を促進します。
また、プロンプトを使用してスコア回帰タスクをビデオとテキストのマッチング タスクに変換するため、タスクの対話性が可能になります。
この分野のさらなる研究をサポートするために、高品質で包括的なアクションのナレーションを使用して MTL-AQA および FineGym データセットに再アノテーションを付けます。
さらに、NAE のベンチマークを確立します。
広範な実験結果により、私たちの方法が個別の学習方法や単純なマルチタスク学習方法よりも優れていることが証明されています。
データとコードは https://github.com/shiyi-zh0408/NAE_CVPR2024 で公開されています。

要約(オリジナル)

In this paper, we investigate a new problem called narrative action evaluation (NAE). NAE aims to generate professional commentary that evaluates the execution of an action. Unlike traditional tasks such as score-based action quality assessment and video captioning involving superficial sentences, NAE focuses on creating detailed narratives in natural language. These narratives provide intricate descriptions of actions along with objective evaluations. NAE is a more challenging task because it requires both narrative flexibility and evaluation rigor. One existing possible solution is to use multi-task learning, where narrative language and evaluative information are predicted separately. However, this approach results in reduced performance for individual tasks because of variations between tasks and differences in modality between language information and evaluation information. To address this, we propose a prompt-guided multimodal interaction framework. This framework utilizes a pair of transformers to facilitate the interaction between different modalities of information. It also uses prompts to transform the score regression task into a video-text matching task, thus enabling task interactivity. To support further research in this field, we re-annotate the MTL-AQA and FineGym datasets with high-quality and comprehensive action narration. Additionally, we establish benchmarks for NAE. Extensive experiment results prove that our method outperforms separate learning methods and naive multi-task learning methods. Data and code are released at https://github.com/shiyi-zh0408/NAE_CVPR2024.

arxiv情報

著者 Shiyi Zhang,Sule Bai,Guangyi Chen,Lei Chen,Jiwen Lu,Junle Wang,Yansong Tang
発行日 2024-04-26 14:35:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク