Graph2Vid: Flow graph to Video Grounding for Weakly-supervised Multi-Step Localization

要約

この作業では、教育用ビデオにおける教師の弱い多段階ローカリゼーションの問題を検討します。
この問題に対する確立されたアプローチは、特定の手順リストに依存することです。
ただし、実際には、一連の手順をわずかに異なる順序で実行することにより、手順を正常に実行する方法が複数あることがよくあります。
したがって、特定のビデオでローカリゼーションを成功させるために、最近の作業では、ビデオ内の手順ステップの実際の順序がトレーニング時とテスト時の両方で人間のアノテーターによって提供される必要があります。
代わりに、ここでは、特定のビデオに関連付けられていない一般的な手順テキストのみに依存しています。
手順のリストを手順フロー グラフに変換することで、手順を完了するためのさまざまな方法を表します。手順の部分的な順序をキャプチャします。
フロー グラフを使用すると、トレーニング時間とテスト時間の両方の注釈要件が軽減されます。
この目的のために、フローグラフの新しい問題をビデオグラウンディングに導入します。
このセットアップでは、プロシージャ フロー グラフと特定のビデオに一致する最適なステップ順序を探します。
この問題を解決するために、ビデオ内のステップの実際の順序を推測し、同時にローカライズする新しいアルゴリズム、Graph2Vid を提案します。
提案された定式化の利点を示すために、CrossTask データセットをプロシージャ フロー グラフ情報で拡張します。
私たちの実験では、Graph2Vid がベースラインよりも効率的であり、ステップ順序の注釈を必要とせずに、強力なステップ ローカリゼーション結果を生成することが示されています。

要約(オリジナル)

In this work, we consider the problem of weakly-supervised multi-step localization in instructional videos. An established approach to this problem is to rely on a given list of steps. However, in reality, there is often more than one way to execute a procedure successfully, by following the set of steps in slightly varying orders. Thus, for successful localization in a given video, recent works require the actual order of procedure steps in the video, to be provided by human annotators at both training and test times. Instead, here, we only rely on generic procedural text that is not tied to a specific video. We represent the various ways to complete the procedure by transforming the list of instructions into a procedure flow graph which captures the partial order of steps. Using the flow graphs reduces both training and test time annotation requirements. To this end, we introduce the new problem of flow graph to video grounding. In this setup, we seek the optimal step ordering consistent with the procedure flow graph and a given video. To solve this problem, we propose a new algorithm – Graph2Vid – that infers the actual ordering of steps in the video and simultaneously localizes them. To show the advantage of our proposed formulation, we extend the CrossTask dataset with procedure flow graph information. Our experiments show that Graph2Vid is both more efficient than the baselines and yields strong step localization results, without the need for step order annotation.

arxiv情報

著者 Nikita Dvornik,Isma Hadji,Hai Pham,Dhaivat Bhatt,Brais Martinez,Afsaneh Fazly,Allan D. Jepson
発行日 2022-10-31 13:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク