Can’t make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

要約

現実世界でありそうなアクション シーケンスを予測するための大規模なビデオ言語モデルである PlausiVL を紹介します。
将来のアクションを予測するために多大な努力が払われてきましたが、従来のアプローチではアクションシーケンスの妥当性の側面が考慮されていませんでした。
この制限に対処するために、私たちは研究の中で大規模なビデオ言語モデルの生成能力を調査し、さらに、反事実に基づくもっともらしいアクション シーケンスの学習損失と長時間学習という 2 つの目的関数を導入することで、アクション シーケンスにおけるもっともらしさの理解を深めます。
・ホライズンアクションの繰り返しロス。
時間的論理制約と動詞と名詞のアクションペアの論理制約を利用して、ありえない/反事実的なアクションシーケンスを作成し、それらを使用して、もっともらしいアクションシーケンスの学習損失を伴うモデルをトレーニングします。
この損失は、モデルが妥当なアクション シーケンスと妥当でないアクション シーケンスを区別するのに役立ち、モデルがアクションの予測というタスクに重要な暗黙的な時間的手がかりを学習するのにも役立ちます。
長期的なアクションの反復損失は、より長い時間枠にわたって反復される傾向がより高いアクションに対して、より高いペナルティを課します。
このペナルティにより、モデルは多様でもっともらしいアクション シーケンスを生成できるようになります。
Ego4D と EPIC-Kitchens-100 という 2 つの大規模データセットでアプローチを評価し、行動予測のタスクの改善を示します。

要約(オリジナル)

We introduce PlausiVL, a large video-language model for anticipating action sequences that are plausible in the real-world. While significant efforts have been made towards anticipating future actions, prior approaches do not take into account the aspect of plausibility in an action sequence. To address this limitation, we explore the generative capability of a large video-language model in our work and further, develop the understanding of plausibility in an action sequence by introducing two objective functions, a counterfactual-based plausible action sequence learning loss and a long-horizon action repetition loss. We utilize temporal logical constraints as well as verb-noun action pair logical constraints to create implausible/counterfactual action sequences and use them to train the model with plausible action sequence learning loss. This loss helps the model to differentiate between plausible and not plausible action sequences and also helps the model to learn implicit temporal cues crucial for the task of action anticipation. The long-horizon action repetition loss puts a higher penalty on the actions that are more prone to repetition over a longer temporal window. With this penalization, the model is able to generate diverse, plausible action sequences. We evaluate our approach on two large-scale datasets, Ego4D and EPIC-Kitchens-100, and show improvements on the task of action anticipation.

arxiv情報

著者 Himangi Mittal,Nakul Agarwal,Shao-Yuan Lo,Kwonjoon Lee
発行日 2024-05-30 17:50:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク