MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations

要約

このペーパーでは、大規模モーション モデル (LMM) を構築してベンチマークする方法の問題に取り組みます。
LMM の最終的な目標は、解釈可能性と一般化可能性を備えた、人間の動作生成などの多用途の動作関連タスクの基礎モデルとして機能することです。
先進的ではあるものの、最近の LMM 関連の作品は依然として小規模なモーション データとコストのかかるテキスト記述によって制限されています。
さらに、以前のモーション ベンチマークは主に純粋な体の動きに焦点を当てており、コンテキスト内のユビキタスなモーション、つまり人間が人間、オブジェクト、シーンと相互作用する動きは無視されていました。
これらの制限に対処するために、大規模なビデオ アクション データセットをナレッジ バンクとして統合して、13 のビデオ アクション データセット、124 万のモーション シーケンス、および自然で多様な人間のモーションの 1 億 3,290 万フレームで構成される MotionBank を構築します。
実験室で撮影されたモーションとは異なり、野生の人間中心のビデオには、コンテキスト内の豊富なモーションが含まれています。
モーション テキストの配置を改善するために、モーション キャプション生成アルゴリズムも細心の注意を払って考案され、各モーションの運動学的特性を介してルールベースで偏りのない、もつれのないテキストの説明が自動的に生成されます。
広範な実験により、当社の MotionBank が人間のモーション生成、コンテキスト内のモーション生成、およびモーションの理解などの一般的なモーション関連タスクに有益であることが示されています。
ビデオモーションとルールベースのテキスト注釈は、大規模な LMM の効率的な代替手段として機能する可能性があります。
私たちのデータセット、コード、ベンチマークは https://github.com/liangxuy/MotionBank で公開されます。

要約(オリジナル)

In this paper, we tackle the problem of how to build and benchmark a large motion model (LMM). The ultimate goal of LMM is to serve as a foundation model for versatile motion-related tasks, e.g., human motion generation, with interpretability and generalizability. Though advanced, recent LMM-related works are still limited by small-scale motion data and costly text descriptions. Besides, previous motion benchmarks primarily focus on pure body movements, neglecting the ubiquitous motions in context, i.e., humans interacting with humans, objects, and scenes. To address these limitations, we consolidate large-scale video action datasets as knowledge banks to build MotionBank, which comprises 13 video action datasets, 1.24M motion sequences, and 132.9M frames of natural and diverse human motions. Different from laboratory-captured motions, in-the-wild human-centric videos contain abundant motions in context. To facilitate better motion text alignment, we also meticulously devise a motion caption generation algorithm to automatically produce rule-based, unbiased, and disentangled text descriptions via the kinematic characteristics for each motion. Extensive experiments show that our MotionBank is beneficial for general motion-related tasks of human motion generation, motion in-context generation, and motion understanding. Video motions together with the rule-based text annotations could serve as an efficient alternative for larger LMMs. Our dataset, codes, and benchmark will be publicly available at https://github.com/liangxuy/MotionBank.

arxiv情報

著者 Liang Xu,Shaoyang Hua,Zili Lin,Yifan Liu,Feipeng Ma,Yichao Yan,Xin Jin,Xiaokang Yang,Wenjun Zeng
発行日 2024-10-17 17:31:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク