StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos

要約

タイトル:StepFormer:自己教師ありによる指示動画のステップ発見と位置決め
要約:
– 指示動画は、人間のデモンストレーションから手順的なタスクを学ぶための重要なリソースである。
– しかしながら、そのような動画の指示ステップは通常短く、まばらであり、ビデオのほとんどが手順に関係ないものである。
– このため、そのような動画で指示ステップを時間的に特定する必要があり、すなわち、キーステップの位置決めと呼ばれるタスクである。
– キーステップの位置決めの従来の方法は、ビデオレベルの人的注釈が必要であるため、大規模なデータセットにスケールしない。
– この研究では、人的に監督されていない問題に取り組み、自己教師ありのStepFormerを導入して、指示動画のステップを発見して位置決めするモデルを提供する。
– StepFormerは、トランスフォーマーデコーダーであり、学習可能なクエリを使用してビデオに注意を向け、ビデオ内のキーステップを捉えるスロットのシーケンスを生成する。
– 自動生成された字幕を唯一の監視源として、大規模な指示動画データセットでシステムをトレーニングする。
– 特に、順序に関する損失関数を使用してテキストナレーションのシーケンスでシステムを監視し、関係のないフレーズをフィルタリングする。
– 本研究では、3つの厳しいベンチマークでステップの検出と位置決めにおいて、すべての以前の非監督学習および弱監督学習アプローチを大幅に上回ることを示す。
– さらに、当社のモデルは、ゼロショットのマルチステップの位置決めを解決し、このタスクですべての関連ベースラインを上回る新しい性質を示す。

要約(オリジナル)

Instructional videos are an important resource to learn procedural tasks from human demonstrations. However, the instruction steps in such videos are typically short and sparse, with most of the video being irrelevant to the procedure. This motivates the need to temporally localize the instruction steps in such videos, i.e. the task called key-step localization. Traditional methods for key-step localization require video-level human annotations and thus do not scale to large datasets. In this work, we tackle the problem with no human supervision and introduce StepFormer, a self-supervised model that discovers and localizes instruction steps in a video. StepFormer is a transformer decoder that attends to the video with learnable queries, and produces a sequence of slots capturing the key-steps in the video. We train our system on a large dataset of instructional videos, using their automatically-generated subtitles as the only source of supervision. In particular, we supervise our system with a sequence of text narrations using an order-aware loss function that filters out irrelevant phrases. We show that our model outperforms all previous unsupervised and weakly-supervised approaches on step detection and localization by a large margin on three challenging benchmarks. Moreover, our model demonstrates an emergent property to solve zero-shot multi-step localization and outperforms all relevant baselines at this task.

arxiv情報

著者 Nikita Dvornik,Isma Hadji,Ran Zhang,Konstantinos G. Derpanis,Animesh Garg,Richard P. Wildes,Allan D. Jepson
発行日 2023-04-26 03:37:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク