On the Efficacy of Text-Based Input Modalities for Action Anticipation

要約

将来の行動を予測するというタスクは非常に不確実ですが、追加のモダリティからの情報は、妥当な行動の選択肢を絞り込むのに役立ちます。
各モダリティは、モデルが学習するための異なる環境コンテキストを提供します。
これまでのマルチモーダル手法はビデオやオーディオなどのモダリティからの情報を活用していましたが、私たちは主に、アクションやオブジェクトのテキスト入力によって、より正確なアクションの予測がどのように可能になるかを調査しました。
したがって、マルチモーダル機能とテキスト キャプションから共同学習する注意ベースのビデオ トランスフォーマー アーキテクチャであるマルチモーダル予測トランスフォーマー (MAT) を提案します。
モデルは 2 段階でトレーニングされます。モデルは最初にキャプションに合わせてビデオ クリップ内のアクションを予測することを学習し、第 2 段階では将来のアクションを予測するためにモデルを微調整します。
既存の方法と比較して、MAT には 2 種類のテキスト入力から追加の環境コンテキストを学習できるという利点があります。1 つは事前トレーニング段階でのアクションの説明、もう 1 つはモダリティ特徴融合での検出されたオブジェクトとアクションのテキスト入力です。
広範な実験を通じて、事前トレーニング段階の有効性を評価し、すべてのデータセットでモデルが以前の方法よりも優れていることを示しました。
さらに、テキストを通じて得られる物体や動作の情報の影響を検査し、広範なアブレーションを実行します。
EpicKitchens-100、EpicKitchens-55、EGTEA GAZE+ の 3 つのデータセットでパフォーマンスを評価します。
そして、テキストの説明が実際に、より効果的な行動の予測に役立つことを示しています。

要約(オリジナル)

Although the task of anticipating future actions is highly uncertain, information from additional modalities help to narrow down plausible action choices. Each modality provides different environmental context for the model to learn from. While previous multi-modal methods leverage information from modalities such as video and audio, we primarily explore how text inputs for actions and objects can also enable more accurate action anticipation. Therefore, we propose a Multi-modal Anticipative Transformer (MAT), an attention-based video transformer architecture that jointly learns from multi-modal features and text captions. We train our model in two-stages, where the model first learns to predict actions in the video clip by aligning with captions, and during the second stage, we fine-tune the model to predict future actions. Compared to existing methods, MAT has the advantage of learning additional environmental context from two kinds of text inputs: action descriptions during the pre-training stage, and the text inputs for detected objects and actions during modality feature fusion. Through extensive experiments, we evaluate the effectiveness of the pre-training stage, and show that our model outperforms previous methods on all datasets. In addition, we examine the impact of object and action information obtained via text and perform extensive ablations. We evaluate the performance on on three datasets: EpicKitchens-100, EpicKitchens-55 and EGTEA GAZE+; and show that text descriptions do indeed aid in more effective action anticipation.

arxiv情報

著者 Apoorva Beedu,Karan Samel,Irfan Essa
発行日 2024-01-23 18:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク