要約
人間の行動を予測するインテリジェント システムの機能は、特に自律走行車ナビゲーションやソーシャル ロボット工学などの分野で非常に重要です。
しかし、人間の動作の複雑さにより、人間の動作を予測するための標準化されたデータセットの開発が妨げられており、それによって事前トレーニングされたモデルの確立が妨げられています。
この論文では、軌道と 3D ポーズのキーポイントの両方を含む複数のデータセットを統合することでこれらの制限に対処し、人間の動きを予測するための事前トレーニングされたモデルを提案します。
さまざまなモダリティにわたる 7 つの異なるデータセットを結合し、その形式を標準化します。
マルチモーダルの事前トレーニングを容易にするために、クロスモダリティの事前トレーニング用に設計された革新的なトランスフォーマー ベースのモデルである Multi-Transmotion を導入します。
さらに、豊かな表現をキャプチャするための新しいマスキング戦略を紹介します。
私たちの方法論は、NBA および JTA データセットでの軌道予測や、AMASS および 3DPW データセットでのポーズ予測など、いくつかの下流タスクでさまざまなデータセットにわたって競争力のあるパフォーマンスを実証します。
コードは公開されています: https://github.com/vita-epfl/multi-transmotion
要約(オリジナル)
The ability of intelligent systems to predict human behaviors is crucial, particularly in fields such as autonomous vehicle navigation and social robotics. However, the complexity of human motion have prevented the development of a standardized dataset for human motion prediction, thereby hindering the establishment of pre-trained models. In this paper, we address these limitations by integrating multiple datasets, encompassing both trajectory and 3D pose keypoints, to propose a pre-trained model for human motion prediction. We merge seven distinct datasets across varying modalities and standardize their formats. To facilitate multimodal pre-training, we introduce Multi-Transmotion, an innovative transformer-based model designed for cross-modality pre-training. Additionally, we present a novel masking strategy to capture rich representations. Our methodology demonstrates competitive performance across various datasets on several downstream tasks, including trajectory prediction in the NBA and JTA datasets, as well as pose prediction in the AMASS and 3DPW datasets. The code is publicly available: https://github.com/vita-epfl/multi-transmotion
arxiv情報
著者 | Yang Gao,Po-Chien Luan,Alexandre Alahi |
発行日 | 2024-11-04 23:15:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google