What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning

要約

手続き的なアクティビティを理解するには、アクションステップがシーンをどのように変換するかと、シーンの変換がどのように進化するシーンの変換が、偶発的または誤っているものであっても、アクションステップのシーケンスにどのように影響するかの両方をモデル化する必要があります。
既存の作業は、アクションの時間的順序のモデリングなどの新しいアプローチを提案することにより、手順を意識するビデオ表現を研究しており、状態の変化(シーン変換)を明示的に学習していません。
この作業では、ビデオエンコーダの監督信号として大規模な言語モデル(LLM)によって生成された状態変化の説明を組み込むことにより、手順を意識するビデオ表現学習を研究します。
さらに、仮定された障害の結果をシミュレートする状態変化の反事実を生成し、目に見えない「what if」シナリオを想像することでモデルが学習できるようにします。
この反事実的な推論は、アクティビティの各ステップの原因と結果を理解するモデルの能力を促進します。
モデルの手順認識を検証するために、一時的なアクションセグメンテーション、エラー検出、アクションフェーズ分類、フレーム検索、マルチインスタンス検索、アクション認識など、手順認識タスクに関する広範な実験を実施します。
私たちの結果は、提案された状態変化の説明とそれらの反事実の有効性を示し、複数のタスクの大幅な改善を達成します。
ソースコードとデータをまもなく公開します。

要約(オリジナル)

Understanding a procedural activity requires modeling both how action steps transform the scene and how evolving scene transformations can influence the sequence of action steps, even those that are accidental or erroneous. Existing work has studied procedure-aware video representations by proposing novel approaches such as modeling the temporal order of actions, and has not explicitly learned the state changes (scene transformations). In this work, we study procedure-aware video representation learning by incorporating state-change descriptions generated by Large Language Models (LLMs) as supervision signals for video encoders. Moreover, we generate state-change counterfactuals that simulate hypothesized failure outcomes, allowing models to learn by imagining the unseen “What if” scenarios. This counterfactual reasoning facilitates the model’s ability to understand the cause and effect of each step in an activity. To verify the procedure awareness of our model, we conduct extensive experiments on procedure-aware tasks, including temporal action segmentation, error detection, action phase classification, frame retrieval, multi-instance retrieval, and action recognition. Our results demonstrate the effectiveness of the proposed state-change descriptions and their counterfactuals, and achieve significant improvements on multiple tasks. We will make our source code and data publicly available soon.

arxiv情報

著者 Chi-Hsi Kung,Frangil Ramirez,Juhyung Ha,Yi-Ting Chen,David Crandall,Yi-Hsuan Tsai
発行日 2025-06-09 17:23:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク