Efficient Pre-training for Localized Instruction Generation of Videos

要約

レシピのデモンストレーションに代表される手順ビデオは、段階的な指示を伝えるのに役立ちます。
ただし、このようなビデオを理解することは、ステップの正確な位置特定とテキストによる指示の生成を伴うため、困難です。
手動でステップに注釈を付けたり、指示を記述したりするにはコストがかかり、現在のデータセットのサイズが制限され、効果的な学習が妨げられます。
大規模だがノイズの多いビデオ トランスクリプト データセットを事前トレーニングに利用するとパフォーマンスが向上しますが、大量の計算リソースが必要になります。
さらに、トランスクリプトには無関係な内容が含まれており、人間が書いた指示とはスタイルが異なります。
これらの問題を軽減するために、レシピ ドメインの高品質トレーニング データを自動的に生成する新しい手法である Sieve-&-Swap を提案します。(i) Sieve は無関係なトランスクリプトをフィルタリングし、(ii) Swap はトランスクリプトを人間のトランスクリプトに置き換えることで高品質のテキストを取得します。
-テキストのみのレシピ データセットからの書面による指示。
結果として得られるデータセットは、現在の Web スケール データセットよりも 3 桁小さいですが、大規模モデルの効率的なトレーニングが可能になります。
Sieve-&-Swap と並行して、プロシージャ トランスフォーマー (ProcX) を提案します。これは、プロシージャル ビデオのエンドツーエンドのステップ ローカリゼーションと命令生成のためのモデルです。
このモデルは、厳選されたデータセットで事前トレーニングされると、トレーニング データの一部を使用しながら、YouCook2 と Tasty で最先端のパフォーマンスを実現します。
私たちのコードとデータセットは一般に公開されます。

要約(オリジナル)

Procedural videos, exemplified by recipe demonstrations, are instrumental in conveying step-by-step instructions. However, understanding such videos is challenging as it involves the precise localization of steps and the generation of textual instructions. Manually annotating steps and writing instructions is costly, which limits the size of current datasets and hinders effective learning. Leveraging large but noisy video-transcript datasets for pre-training can boost performance but demands significant computational resources. Furthermore, transcripts contain irrelevant content and differ in style from human-written instructions. To mitigate these issues, we propose a novel technique, Sieve-&-Swap, to automatically generate high quality training data for the recipe domain: (i) Sieve filters irrelevant transcripts and (ii) Swap acquires high quality text by replacing transcripts with human-written instruction from a text-only recipe dataset. The resulting dataset is three orders of magnitude smaller than current web-scale datasets but enables efficient training of large-scale models. Alongside Sieve-&-Swap, we propose Procedure Transformer (ProcX), a model for end-to-end step localization and instruction generation for procedural videos. When pre-trained on our curated dataset, this model achieves state-of-the-art performance on YouCook2 and Tasty while using a fraction of the training data. Our code and dataset will be publicly released.

arxiv情報

著者 Anil Batra,Davide Moltisanti,Laura Sevilla-Lara,Marcus Rohrbach,Frank Keller
発行日 2024-05-23 13:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク