要約
我々は、ActionDiffusion を紹介します。これは、手順計画の普及モデルにおいてアクション間の時間的な相互依存関係を初めて考慮した、教育ビデオにおける手順計画の新しい普及モデルです。
このアプローチは、アクションが実行される特定の順序で利用可能な豊富な情報コンテンツを活用できない既存の方法とはまったく対照的です。
私たちの方法は、アクション情報をノイズ空間に投影することにより、アクション間の時間的依存関係の学習と拡散プロセスにおけるアクション計画のノイズ除去を統合します。
これは、1) ノイズ追加フェーズでノイズ マスクにアクション埋め込みを追加することによって、および 2) ノイズ予測ネットワークにアテンション メカニズムを導入して、さまざまなアクション ステップ間の相関関係を学習することによって実現されます。
私たちは、3 つの教育用ビデオ ベンチマーク データセット (CrossTask、Coin、NIV) に関する広範な実験を報告し、CrossTask と NIV のすべてのメトリクス、および Coin データセットの精度を除くすべてのメトリクスにおいて、私たちの手法が以前の最先端の手法よりも優れていることを示しています。
アクションの埋め込みをノイズマスクに追加することで、拡散モデルがアクションの時間依存性をよりよく学習し、手順計画のパフォーマンスを向上できることを示します。
要約(オリジナル)
We present ActionDiffusion — a novel diffusion model for procedure planning in instructional videos that is the first to take temporal inter-dependencies between actions into account in a diffusion model for procedure planning. This approach is in stark contrast to existing methods that fail to exploit the rich information content available in the particular order in which actions are performed. Our method unifies the learning of temporal dependencies between actions and denoising of the action plan in the diffusion process by projecting the action information into the noise space. This is achieved 1) by adding action embeddings in the noise masks in the noise-adding phase and 2) by introducing an attention mechanism in the noise prediction network to learn the correlations between different action steps. We report extensive experiments on three instructional video benchmark datasets (CrossTask, Coin, and NIV) and show that our method outperforms previous state-of-the-art methods on all metrics on CrossTask and NIV and all metrics except accuracy on Coin dataset. We show that by adding action embeddings into the noise mask the diffusion model can better learn action temporal dependencies and increase the performances on procedure planning.
arxiv情報
著者 | Lei Shi,Paul Bürkner,Andreas Bulling |
発行日 | 2024-03-13 14:54:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google