要約
教育ビデオでの手順計画には、初期状態と目標状態の視覚的観察に基づいて一連のアクション ステップを生成することが含まれます。
このタスクは急速に進歩しているにもかかわらず、解決すべき重要な課題がいくつか残されています。 (1) 適応手順: 従来の研究では、アクション ステップの数が既知で固定されているという非現実的な前提があり、現実世界では一般化できないモデルが生成されます。
シーケンスの長さが異なるシナリオ。
(2) 時間的関係: 合理的で実行可能な計画を立てるには、ステップの時間的関係の知識を理解することが不可欠です。
(3) アノテーションのコスト: ステップ レベルのラベル (つまり、タイムスタンプ) またはシーケンス レベルのラベル (つまり、アクション カテゴリ) を使用して教育ビデオにアノテーションを付けることは、要求と労力がかかり、大規模なデータセットへの一般化が制限されます。
私たちは、手順の長さが固定または事前に決定されていない、教育ビデオにおける適応型手順計画と呼ばれる、新しく実用的な設定を提案します。
これらの課題に対処するために、検索拡張プランナー (RAP) モデルを導入します。
具体的には、適応型プロシージャの場合、RAP は自己回帰モデル アーキテクチャを使用してアクションの結論を適応的に決定します。
時間的な関係については、RAP は外部メモリ モジュールを確立して、トレーニング ビデオから最も関連性の高い状態とアクションのペアを明示的に取得し、生成された手順を修正します。
アノテーションのコストが高くつくことに対処するために、RAP は弱教師学習方式を利用して、アクション ステップの疑似ラベルを生成することで、トレーニング データセットを他のタスク関連のアノテーションのないビデオに拡張します。
CrossTask および COIN ベンチマークの実験では、従来の固定長モデルに対する RAP の優位性が示され、適応型手順計画の強力なベースライン ソリューションとして確立されています。
要約(オリジナル)
Procedure Planning in instructional videos entails generating a sequence of action steps based on visual observations of the initial and target states. Despite the rapid progress in this task, there remain several critical challenges to be solved: (1) Adaptive procedures: Prior works hold an unrealistic assumption that the number of action steps is known and fixed, leading to non-generalizable models in real-world scenarios where the sequence length varies. (2) Temporal relation: Understanding the step temporal relation knowledge is essential in producing reasonable and executable plans. (3) Annotation cost: Annotating instructional videos with step-level labels (i.e., timestamp) or sequence-level labels (i.e., action category) is demanding and labor-intensive, limiting its generalizability to large-scale datasets.In this work, we propose a new and practical setting, called adaptive procedure planning in instructional videos, where the procedure length is not fixed or pre-determined. To address these challenges we introduce Retrieval-Augmented Planner (RAP) model. Specifically, for adaptive procedures, RAP adaptively determines the conclusion of actions using an auto-regressive model architecture. For temporal relation, RAP establishes an external memory module to explicitly retrieve the most relevant state-action pairs from the training videos and revises the generated procedures. To tackle high annotation cost, RAP utilizes a weakly-supervised learning manner to expand the training dataset to other task-relevant, unannotated videos by generating pseudo labels for action steps. Experiments on CrossTask and COIN benchmarks show the superiority of RAP over traditional fixed-length models, establishing it as a strong baseline solution for adaptive procedure planning.
arxiv情報
著者 | Ali Zare,Yulei Niu,Hammad Ayyubi,Shih-fu Chang |
発行日 | 2024-03-27 14:22:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google