MotionLLM: Understanding Human Behaviors from Human Motions and Videos

要約

この研究では、大規模言語モデル (LLM) の強力な機能を活用して、マルチモダリティ (ビデオおよびモーション モダリティ) の人間の行動理解の領域を掘り下げています。
ビデオのみまたはモーションのみを理解するために設計された最近の LLM とは異なり、人間の行動を理解するには、微妙な身体部分のダイナミクスとセマンティクスを効果的にキャプチャするために、ビデオとモーション シーケンス (SMPL シーケンスなど) の両方からの共同モデリングが必要であると主張します。
これを踏まえて、人間の動きの理解、キャプション、および推論のための単純かつ効果的なフレームワークである MotionLLM を紹介します。
具体的には、MotionLLM は、既存の粗いビデオ テキスト データと粒度の細かいモーション テキスト データの補完的な利点を活用して、豊富な時空間洞察を収集する統合ビデオ モーション トレーニング戦略を採用しています。
さらに、さまざまなビデオ、モーション、キャプション、説明書を含む実質的なデータセット MoVid を収集します。
さらに、ビデオとモーションに関する人間の行動の理解をより適切に評価するために、慎重に手動で注釈を付けた MoVid-Bench を提案します。
広範な実験により、字幕、時空間理解、推論能力において MotionLLM の優位性が示されました。

要約(オリジナル)

This study delves into the realm of multi-modality (i.e., video and motion modalities) human behavior understanding by leveraging the powerful capabilities of Large Language Models (LLMs). Diverging from recent LLMs designed for video-only or motion-only understanding, we argue that understanding human behavior necessitates joint modeling from both videos and motion sequences (e.g., SMPL sequences) to capture nuanced body part dynamics and semantics effectively. In light of this, we present MotionLLM, a straightforward yet effective framework for human motion understanding, captioning, and reasoning. Specifically, MotionLLM adopts a unified video-motion training strategy that leverages the complementary advantages of existing coarse video-text data and fine-grained motion-text data to glean rich spatial-temporal insights. Furthermore, we collect a substantial dataset, MoVid, comprising diverse videos, motions, captions, and instructions. Additionally, we propose the MoVid-Bench, with carefully manual annotations, for better evaluation of human behavior understanding on video and motion. Extensive experiments show the superiority of MotionLLM in the caption, spatial-temporal comprehension, and reasoning ability.

arxiv情報

著者 Ling-Hao Chen,Shunlin Lu,Ailing Zeng,Hao Zhang,Benyou Wang,Ruimao Zhang,Lei Zhang
発行日 2024-05-30 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク