要約
オンラインで利用できる膨大な数の教育ビデオを考えると、ビデオから多様なマルチステップ タスク モデルを学習することは魅力的な目標です。
教育用ビデオのセマンティクスと構造を表現することに重点を置いた、事前トレーニング済みの新しいビデオ モデル VideoTaskformer を紹介します。
シンプルで効果的な目的を使用して、VideoTaskformer を事前トレーニングします。それは、教育ビデオからランダムにマスクされたステップの、弱く監視されたテキスト ラベルを予測することです (マスクされたステップ モデリング)。
ステップ表現をローカルで学習する以前の研究と比較して、私たちのアプローチはそれらをグローバルに学習し、周囲のタスク全体のビデオをコンテキストとして活用します。
これらの学習された表現から、目に見えないビデオが特定のタスクを正しく実行するかどうかを検証し、特定のステップの後にどのステップが実行される可能性が高いかを予測できます。
異常なステップがあるかどうか、およびステップが正しい順序で実行されているかどうかを検証するために、教育ビデオの間違いを検出するための 2 つの新しいベンチマークを導入します。
また、特定のステップから長期的な将来のステップを予測することを目標とする長期予測ベンチマークも紹介します。
私たちの方法は、これらのタスクで以前のベースラインよりも優れており、コミュニティがステップ表現の品質を測定するための貴重な方法になると信じています。
さらに、手続き型アクティビティ認識、ステップ分類、ステップ予測の 3 つの既存のベンチマークで VideoTaskformer を評価し、それぞれの方法が既存のベースラインよりも優れており、新しい最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Given the enormous number of instructional videos available online, learning a diverse array of multi-step task models from videos is an appealing goal. We introduce a new pre-trained video model, VideoTaskformer, focused on representing the semantics and structure of instructional videos. We pre-train VideoTaskformer using a simple and effective objective: predicting weakly supervised textual labels for steps that are randomly masked out from an instructional video (masked step modeling). Compared to prior work which learns step representations locally, our approach involves learning them globally, leveraging video of the entire surrounding task as context. From these learned representations, we can verify if an unseen video correctly executes a given task, as well as forecast which steps are likely to be taken after a given step. We introduce two new benchmarks for detecting mistakes in instructional videos, to verify if there is an anomalous step and if steps are executed in the right order. We also introduce a long-term forecasting benchmark, where the goal is to predict long-range future steps from a given step. Our method outperforms previous baselines on these tasks, and we believe the tasks will be a valuable way for the community to measure the quality of step representations. Additionally, we evaluate VideoTaskformer on 3 existing benchmarks — procedural activity recognition, step classification, and step forecasting — and demonstrate on each that our method outperforms existing baselines and achieves new state-of-the-art performance.
arxiv情報
著者 | Medhini Narasimhan,Licheng Yu,Sean Bell,Ning Zhang,Trevor Darrell |
発行日 | 2023-03-23 17:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google