要約
長いビデオをチャプタに分割すると、ユーザーは興味のある情報にすばやく移動できるようになります。
この重要なトピックは、公的にリリースされたデータセットが不足しているため、十分に研究されていません。
この問題に対処するために、合計 700 万のチャプターを含む 817,000 のユーザー チャプター付きビデオのデータセットである VidChapters-7M を紹介します。
VidChapters-7M は、ユーザーが注釈を付けたチャプターをスクレイピングすることにより、オンラインのビデオからスケーラブルな方法で自動的に作成されるため、追加の手動注釈は必要ありません。
このデータをもとに、以下の 3 つのタスクを紹介します。
まず、ビデオ チャプター生成タスクは、ビデオを時間的にセグメント化し、各セグメントのチャプター タイトルを生成することで構成されます。
問題をさらに詳細に分析するために、このタスクの 2 つの変形も定義します。1 つはグラウンドトゥルース境界を指定したビデオ チャプターの生成です。これには、注釈が付けられたビデオ セグメントからチャプター タイトルを生成する必要があり、もう 1 つはビデオ チャプターのグラウンディングです。注釈が付いているチャプターを時間的にローカライズする必要があります。
タイトル。
これら 3 つのタスクについて、単純なベースラインと最先端のビデオ言語モデルの両方をベンチマークします。
また、VidChapters-7M での事前トレーニングが、ゼロショット設定と微調整設定の両方で高密度ビデオ キャプション タスクにうまく移行し、YouCook2 および ViTT ベンチマークの最先端技術を大幅に改善することも示しています。
最後に、私たちの実験では、ダウンストリームのパフォーマンスが事前トレーニング データセットのサイズに応じて適切にスケールされることが明らかになりました。
私たちのデータセット、コード、モデルは https://antoyang.github.io/vidchapters.html で公開されています。
要約(オリジナル)
Segmenting long videos into chapters enables users to quickly navigate to the information of their interest. This important topic has been understudied due to the lack of publicly released datasets. To address this issue, we present VidChapters-7M, a dataset of 817K user-chaptered videos including 7M chapters in total. VidChapters-7M is automatically created from videos online in a scalable manner by scraping user-annotated chapters and hence without any additional manual annotation. We introduce the following three tasks based on this data. First, the video chapter generation task consists of temporally segmenting the video and generating a chapter title for each segment. To further dissect the problem, we also define two variants of this task: video chapter generation given ground-truth boundaries, which requires generating a chapter title given an annotated video segment, and video chapter grounding, which requires temporally localizing a chapter given its annotated title. We benchmark both simple baselines and state-of-the-art video-language models for these three tasks. We also show that pretraining on VidChapters-7M transfers well to dense video captioning tasks in both zero-shot and finetuning settings, largely improving the state of the art on the YouCook2 and ViTT benchmarks. Finally, our experiments reveal that downstream performance scales well with the size of the pretraining dataset. Our dataset, code, and models are publicly available at https://antoyang.github.io/vidchapters.html.
arxiv情報
著者 | Antoine Yang,Arsha Nagrani,Ivan Laptev,Josef Sivic,Cordelia Schmid |
発行日 | 2023-09-25 08:38:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google