MoFM: A Large-Scale Human Motion Foundation Model

要約

ファンデーションモデル(FM)は、多様なタスク全体のスケーラビリティと一般化により、研究者の注目を集めています。
FMSの成功と、大規模な言語モデル(LLMS)の進歩を推進した原則に触発され、MOFMを新しい動きの基礎モデルとして紹介します。
MOFMは、時間と空間の両方における複雑な人間の動きの意味的な理解のために設計されています。
大規模なトレーニングを容易にするために、MotionBookは、離散化された動きの包括的な人間のモーション辞書を設計および採用しています。
MotionBookは、サーマルキューブを使用して時空間モーションヒートマップをキャプチャし、個別の変異モデルから原理を適用して、より効率的でスケーラブルな表現のために人間の動きを離散ユニットにエンコードします。
大規模なモーションデータのコーパスで訓練されたMOFMは、多様なダウンストリームタスクに適応できる基礎バックボーンを提供し、ワンショット、監視なし、および監視されたタスクなどのパラダイムをサポートします。
この汎用性により、MOFMは幅広いモーションベースのアプリケーションに適しています。

要約(オリジナル)

Foundation Models (FM) have increasingly drawn the attention of researchers due to their scalability and generalization across diverse tasks. Inspired by the success of FMs and the principles that have driven advancements in Large Language Models (LLMs), we introduce MoFM as a novel Motion Foundation Model. MoFM is designed for the semantic understanding of complex human motions in both time and space. To facilitate large-scale training, MotionBook, a comprehensive human motion dictionary of discretized motions is designed and employed. MotionBook utilizes Thermal Cubes to capture spatio-temporal motion heatmaps, applying principles from discrete variational models to encode human movements into discrete units for a more efficient and scalable representation. MoFM, trained on a large corpus of motion data, provides a foundational backbone adaptable to diverse downstream tasks, supporting paradigms such as one-shot, unsupervised, and supervised tasks. This versatility makes MoFM well-suited for a wide range of motion-based applications.

arxiv情報

著者 Mohammadreza Baharani,Ghazal Alinezhad Noghre,Armin Danesh Pazho,Gabriel Maldonado,Hamed Tabkhi
発行日 2025-02-25 15:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク