Leveraging Procedural Knowledge and Task Hierarchies for Efficient Instructional Video Pre-training

要約

教育ビデオは、新しいタスク(たとえば、レシピの調理、または家具の組み立て)を学ぶための便利なモダリティを提供します。
視聴者は、関心のある全体的なタスクの両方を反映した対応するビデオを見つけたいだけでなく、タスクを実行するために必要な関連手順を含むことをお勧めします。
これを実行するには、インストラクションビデオモデルは、タスクと入力ビデオで発生する手順の両方を推測できる必要があります。
このモデルのトレーニングに使用されるビデオの計算または関連するビデオトピックが限られている場合、これを効率的かつ一般化可能な方法で行うことが重要です。
これらの要件に対処するために、タスク階層と教育ビデオに関連する手続きステップを明示的に採掘します。
この事前知識を使用して、ステップとタスクの予測のために、モデル$ \ texttt {pivot} $を事前に引き出します。
トレーニング前に、下流タスクに使用するモデルを最適に特定するために、ビデオの増強と早期停止戦略も提供します。
この事前に訓練されたモデルを、2つのダウンストリームデータセットでタスク認識、ステップ認識、およびステップ予測タスクについてテストします。
トレーニング前のデータと計算が制限されている場合、これらのタスクに沿って以前のベースラインよりも優れています。
したがって、以前のタスクとステップ構造を活用すると、教育ビデオ推奨のために$ \ texttt {pivot} $の効率的なトレーニングが可能になります。

要約(オリジナル)

Instructional videos provide a convenient modality to learn new tasks (ex. cooking a recipe, or assembling furniture). A viewer will want to find a corresponding video that reflects both the overall task they are interested in as well as contains the relevant steps they need to carry out the task. To perform this, an instructional video model should be capable of inferring both the tasks and the steps that occur in an input video. Doing this efficiently and in a generalizable fashion is key when compute or relevant video topics used to train this model are limited. To address these requirements we explicitly mine task hierarchies and the procedural steps associated with instructional videos. We use this prior knowledge to pre-train our model, $\texttt{Pivot}$, for step and task prediction. During pre-training, we also provide video augmentation and early stopping strategies to optimally identify which model to use for downstream tasks. We test this pre-trained model on task recognition, step recognition, and step prediction tasks on two downstream datasets. When pre-training data and compute are limited, we outperform previous baselines along these tasks. Therefore, leveraging prior task and step structures enables efficient training of $\texttt{Pivot}$ for instructional video recommendation.

arxiv情報

著者 Karan Samel,Nitish Sontakke,Irfan Essa
発行日 2025-02-24 17:29:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク