On the Efficacy of Text-Based Input Modalities for Action Anticipation

要約

将来の行動を予測することは、潜在的な将来の行動の多様性と規模のため、非常に困難な作業です。
それでも、さまざまなモダリティからの情報は、妥当なアクションの選択肢を絞り込むのに役立ちます。
各モダリティは、モデルが学習するための多様で、多くの場合補完的なコンテキストを提供できます。
従来のマルチモーダル手法はビデオやオーディオなどのモダリティからの情報を活用していましたが、私たちは主に、アクションやオブジェクトのテキストによる説明が、環境やその内容などの追加の文脈上の手がかりを提供することによって、より正確なアクションの予測にどのようにつながるかを主に検討しています。
我々は、マルチモーダル特徴とアクションとオブジェクトのテキスト記述から共同学習するビデオトランスフォーマーアーキテクチャであるマルチモーダルコントラスト予測トランスフォーマー(M-CAT)を提案します。
モデルは 2 段階でトレーニングされます。モデルは最初にビデオ クリップを将来のアクションの説明と一致させることを学習し、その後、将来のアクションを予測するように微調整されます。
既存の方法と比較して、M-CAT には 2 種類のテキスト入力から追加のコンテキストを学習できるという利点があります。1 つは事前トレーニング中の将来のアクションの豊富な説明、もう 1 つはモダリティ機能融合中の検出されたオブジェクトとアクションに関するテキストの説明です。
広範な実験評価を通じて、私たちのモデルが EpicKitchens データセットに対する以前の方法よりも優れていることを実証し、アクションとオブジェクトの単純なテキスト説明を使用することが、より効果的なアクションの予測に役立つことを示します。
さらに、テキストを通じて得られる物体や動作の情報の影響を調べ、広範なアブレーションを実行します。

要約(オリジナル)

Anticipating future actions is a highly challenging task due to the diversity and scale of potential future actions; yet, information from different modalities help narrow down plausible action choices. Each modality can provide diverse and often complementary context for the model to learn from. While previous multi-modal methods leverage information from modalities such as video and audio, we primarily explore how text descriptions of actions and objects can also lead to more accurate action anticipation by providing additional contextual cues, e.g., about the environment and its contents. We propose a Multi-modal Contrastive Anticipative Transformer (M-CAT), a video transformer architecture that jointly learns from multi-modal features and text descriptions of actions and objects. We train our model in two stages, where the model first learns to align video clips with descriptions of future actions, and is subsequently fine-tuned to predict future actions. Compared to existing methods, M-CAT has the advantage of learning additional context from two types of text inputs: rich descriptions of future actions during pre-training, and, text descriptions for detected objects and actions during modality feature fusion. Through extensive experimental evaluation, we demonstrate that our model outperforms previous methods on the EpicKitchens datasets, and show that using simple text descriptions of actions and objects aid in more effective action anticipation. In addition, we examine the impact of object and action information obtained via text, and perform extensive ablations.

arxiv情報

著者 Apoorva Beedu,Harish Haresamudram,Karan Samel,Irfan Essa
発行日 2024-08-29 15:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク