要約
手順ビデオでは、レシピの準備などのタスクを段階的にデモンストレーションします。
このようなビデオを理解することは、ステップの正確な位置特定とテキストによる指示の生成を伴うため、困難です。
手動でステップに注釈を付けたり、指示を記述したりするにはコストがかかり、現在のデータセットのサイズが制限され、効果的な学習が妨げられます。
大規模だがノイズの多いビデオ トランスクリプト データセットを事前トレーニングに利用するとパフォーマンスが向上しますが、大量の計算リソースが必要になります。
さらに、トランスクリプトには無関係なコンテンツが含まれており、人間のアノテーターが書いた指示と比べてスタイルが異なります。
両方の問題を軽減するために、我々は、より小さなデータセットを自動的にキュレートする技術 Sieve-&-Swap を提案します。(i) Sieve は無関係なトランスクリプトをフィルタリングし、(ii) Swap はトランスクリプトを自動的に人間のトランスクリプトに置き換えることでテキスト指示の品質を高めます。
テキストのみのレシピ データセットからの書面による指示。
現在の Web スケールのデータセットよりも 3 桁小さい厳選されたデータセットにより、競争力のあるパフォーマンスを備えた大規模モデルの効率的なトレーニングが可能になります。
当社では、Sieve-\&-Swap アプローチを Procedure Transformer (ProcX) で補完し、エンドツーエンドのステップローカリゼーションとプロシージャルビデオの命令生成を実現しています。
このモデルが厳選されたデータセットで事前トレーニングされると、計算リソースの一部を使用しながら、YouCook2 と Tasty のゼロショットおよび微調整設定で最先端のパフォーマンスを実現します。
要約(オリジナル)
Procedural videos show step-by-step demonstrations of tasks like recipe preparation. Understanding such videos is challenging, involving the precise localization of steps and the generation of textual instructions. Manually annotating steps and writing instructions is costly, which limits the size of current datasets and hinders effective learning. Leveraging large but noisy video-transcript datasets for pre-training can boost performance, but demands significant computational resources. Furthermore, transcripts contain irrelevant content and exhibit style variation compared to instructions written by human annotators. To mitigate both issues, we propose a technique, Sieve-&-Swap, to automatically curate a smaller dataset: (i) Sieve filters irrelevant transcripts and (ii) Swap enhances the quality of the text instruction by automatically replacing the transcripts with human-written instructions from a text-only recipe dataset. The curated dataset, three orders of magnitude smaller than current web-scale datasets, enables efficient training of large-scale models with competitive performance. We complement our Sieve-\&-Swap approach with a Procedure Transformer (ProcX) for end-to-end step localization and instruction generation for procedural videos. When this model is pre-trained on our curated dataset, it achieves state-of-the-art performance in zero-shot and finetuning settings on YouCook2 and Tasty, while using a fraction of the computational resources.
arxiv情報
著者 | Anil Batra,Davide Moltisanti,Laura Sevilla-Lara,Marcus Rohrbach,Frank Keller |
発行日 | 2024-03-26 15:58:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google