要約
機械学習研究の進捗状況を促進するためには、高品質のベンチマークが重要です。
ただし、ビデオ生成への関心が高まっているにもかかわらず、人間の生成を評価するための包括的なデータセットはありません。
人間はさまざまなアクションと相互作用を実行できますが、TiktokやTed-Talksなどの既存のデータセットには、ビデオ生成モデルの機能を完全にキャプチャするための多様性と複雑さがありません。
「何してるの?」を紹介することで、このギャップを閉じます。
(WYD):制御可能な画像からビデオへの生成の人間の細かい評価のための新しいベンチマーク。
WYDは、56の細かいカテゴリが細心の注意を払って収集され、注釈が付けられた1 {、} 544のキャプション付きビデオで構成されています。
これらにより、行動、相互作用、動きなど、人間の生成の9つの側面にわたってパフォーマンスを体系的に測定できます。
また、注釈を活用し、人間の評価をよりよく捉える自動メトリックを提案および検証します。
データセットとメトリックを装備して、制御可能な画像からビデオからビデオへの7つの最先端モデルの詳細な分析を実行し、WYDがこれらのモデルの機能に関する新しい洞察をどのように提供するかを示しています。
データとコードをリリースして、https://github.com/google-deepmind/wyd-benchmarkで人間のビデオ生成モデリングの進捗状況を促進します。
要約(オリジナル)
High-quality benchmarks are crucial for driving progress in machine learning research. However, despite the growing interest in video generation, there is no comprehensive dataset to evaluate human generation. Humans can perform a wide variety of actions and interactions, but existing datasets, like TikTok and TED-Talks, lack the diversity and complexity to fully capture the capabilities of video generation models. We close this gap by introducing `What Are You Doing?’ (WYD): a new benchmark for fine-grained evaluation of controllable image-to-video generation of humans. WYD consists of 1{,}544 captioned videos that have been meticulously collected and annotated with 56 fine-grained categories. These allow us to systematically measure performance across 9 aspects of human generation, including actions, interactions and motion. We also propose and validate automatic metrics that leverage our annotations and better capture human evaluations. Equipped with our dataset and metrics, we perform in-depth analyses of seven state-of-the-art models in controllable image-to-video generation, showing how WYD provides novel insights about the capabilities of these models. We release our data and code to drive forward progress in human video generation modeling at https://github.com/google-deepmind/wyd-benchmark.
arxiv情報
著者 | Emanuele Bugliarello,Anurag Arnab,Roni Paiss,Pieter-Jan Kindermans,Cordelia Schmid |
発行日 | 2025-03-06 17:59:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google