Learning Procedure-aware Video Representation from Instructional Videos and Their Narrations

要約

タイトル:手順ビデオとその解説から学習手順に関するビデオ表現

要約:
– インターネット上のinstruccionalビデオおよびその解説の豊富さにより、手順活動の理解には興味深いアプローチが提供されています。
– 本研究では、人間注釈を使用せずに、Web instruccionalビデオとその解説の大規模なデータセットに基づいて、アクションステップとその時間的順序を両方エンコードするビデオ表現を学習することを提案します。
– 私たちの方法は、個々のステップ概念をエンコードするためのビデオ表現を共同で学習し、ステップ順序の時系列依存性と膨大な個々の変動を捕捉する深い確率モデルを学習します。
– 時間的順序の学習が手順推論の新しい機能を可能にするだけでなく、個々のステップの認識を強化することが実証されています。
– 私たちのモデルは、ステップ分類(COIN / EPIC-Kitchensで+2.8%/ + 3.3%)、ステップ予測(COINで+7.4%)の最新結果を大幅に向上させ、ゼロショット推論(ステップ分類および予測)において有望な結果を発揮し、不完全手順の多様で信頼性の高いステップを予測します。

要約(オリジナル)

The abundance of instructional videos and their narrations over the Internet offers an exciting avenue for understanding procedural activities. In this work, we propose to learn video representation that encodes both action steps and their temporal ordering, based on a large-scale dataset of web instructional videos and their narrations, without using human annotations. Our method jointly learns a video representation to encode individual step concepts, and a deep probabilistic model to capture both temporal dependencies and immense individual variations in the step ordering. We empirically demonstrate that learning temporal ordering not only enables new capabilities for procedure reasoning, but also reinforces the recognition of individual steps. Our model significantly advances the state-of-the-art results on step classification (+2.8% / +3.3% on COIN / EPIC-Kitchens) and step forecasting (+7.4% on COIN). Moreover, our model attains promising results in zero-shot inference for step classification and forecasting, as well as in predicting diverse and plausible steps for incomplete procedures. Our code is available at https://github.com/facebookresearch/ProcedureVRL.

arxiv情報

著者 Yiwu Zhong,Licheng Yu,Yang Bai,Shangwen Li,Xueting Yan,Yin Li
発行日 2023-03-31 07:02:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク