SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction

要約

周囲のエージェントの将来の動きを予測することは、自動運転車(AVS)が動的で人間のロボット混合環境で安全に動作するために不可欠です。
ただし、大規模な運転データセットの希少性により、堅牢で一般化可能なモーション予測モデルの開発が妨げられ、複雑な相互作用と道路幾何学をキャプチャする能力が制限されています。
自然言語処理(NLP)とコンピュータービジョン(CV)の最近の進歩に触発された自己監視学習(SSL)は、豊かで移転可能なシーン表現を学習するために、モーション予測コミュニティで大きな注目を集めています。
それにもかかわらず、モーション予測のための既存のトレーニング前の方法は、特定のモデルアーキテクチャと単一のデータセットに主に焦点を当てており、スケーラビリティと一般化可能性を制限しています。
これらの課題に対処するために、モデルに依存していないデータセットに依存しないモーション予測の一般的かつスケーラブルなSSLフレームワークであるSmartPretrainを提案します。
私たちのアプローチは、コントラストと再建のSSLを統合し、生成パラダイムと識別パラダイムの両方の強さを活用して、建築的制約を課すことなく時空間の進化と相互作用を効果的に表します。
さらに、SmartPretrainは、複数のデータセットを統合し、データのボリューム、多様性、堅牢性を統合するデータセットに依存しないシナリオサンプリング戦略を採用しています。
複数のデータセットでの広範な実験は、SmartPretrainがデータセット、データスプリット、メインメトリック全体の最先端の予測モデルのパフォーマンスを一貫して改善することを示しています。
たとえば、SmartPretrainは、Forecast-MAEのMissrateを10.6%削減します。
これらの結果は、SmartPretrainのモーション予測のための統一されたスケーラブルなソリューションとしての有効性を強調し、小型体制の制限から解放されます。
コードはhttps://github.com/youngzhou1999/smartpretrainで入手できます

要約(オリジナル)

Predicting the future motion of surrounding agents is essential for autonomous vehicles (AVs) to operate safely in dynamic, human-robot-mixed environments. However, the scarcity of large-scale driving datasets has hindered the development of robust and generalizable motion prediction models, limiting their ability to capture complex interactions and road geometries. Inspired by recent advances in natural language processing (NLP) and computer vision (CV), self-supervised learning (SSL) has gained significant attention in the motion prediction community for learning rich and transferable scene representations. Nonetheless, existing pre-training methods for motion prediction have largely focused on specific model architectures and single dataset, limiting their scalability and generalizability. To address these challenges, we propose SmartPretrain, a general and scalable SSL framework for motion prediction that is both model-agnostic and dataset-agnostic. Our approach integrates contrastive and reconstructive SSL, leveraging the strengths of both generative and discriminative paradigms to effectively represent spatiotemporal evolution and interactions without imposing architectural constraints. Additionally, SmartPretrain employs a dataset-agnostic scenario sampling strategy that integrates multiple datasets, enhancing data volume, diversity, and robustness. Extensive experiments on multiple datasets demonstrate that SmartPretrain consistently improves the performance of state-of-the-art prediction models across datasets, data splits and main metrics. For instance, SmartPretrain significantly reduces the MissRate of Forecast-MAE by 10.6%. These results highlight SmartPretrain’s effectiveness as a unified, scalable solution for motion prediction, breaking free from the limitations of the small-data regime. Codes are available at https://github.com/youngzhou1999/SmartPretrain

arxiv情報

著者 Yang Zhou,Hao Shao,Letian Wang,Steven L. Waslander,Hongsheng Li,Yu Liu
発行日 2025-02-27 15:20:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク