要約
自動運転車 (AV) が動的で人間とロボットが混在する環境で安全に動作するには、周囲のエージェントの将来の動きを予測することが不可欠です。
しかし、大規模な運転データセットが不足しているため、堅牢で一般化可能な運動予測モデルの開発が妨げられ、複雑な相互作用や道路形状を捕捉する能力が制限されています。
自然言語処理 (NLP) とコンピューター ビジョン (CV) の最近の進歩に触発され、自己教師あり学習 (SSL) は、豊富で転送可能なシーン表現を学習するためのモーション予測コミュニティで大きな注目を集めています。
それにもかかわらず、動き予測のための既存の事前トレーニング方法は主に特定のモデル アーキテクチャと単一のデータセットに焦点を当てており、そのスケーラビリティと汎用性が制限されています。
これらの課題に対処するために、モデルとデータセットに依存しない動き予測のための汎用的でスケーラブルな SSL フレームワークである SmartPretrain を提案します。
私たちのアプローチは、対照的 SSL と再構成的 SSL を統合し、生成パラダイムと識別パラダイムの両方の強みを活用して、アーキテクチャ上の制約を課すことなく、時空間進化と相互作用を効果的に表現します。
さらに、SmartPretrain は、複数のデータセットを統合するデータセットに依存しないシナリオ サンプリング戦略を採用し、データ量、多様性、堅牢性を強化します。
複数のデータセットに対する広範な実験により、SmartPretrain がデータセット、データ分割、主要指標全体で最先端の予測モデルのパフォーマンスを一貫して向上させることが実証されました。
たとえば、SmartPretrain は、Forecast-MAE の MissRate を 10.6% 大幅に削減します。
これらの結果は、小データ領域の制限から解放され、動き予測のための統合されたスケーラブルなソリューションとしての SmartPretrain の有効性を強調しています。
コードは https://github.com/youngzhou1999/SmartPretrain で入手できます。
要約(オリジナル)
Predicting the future motion of surrounding agents is essential for autonomous vehicles (AVs) to operate safely in dynamic, human-robot-mixed environments. However, the scarcity of large-scale driving datasets has hindered the development of robust and generalizable motion prediction models, limiting their ability to capture complex interactions and road geometries. Inspired by recent advances in natural language processing (NLP) and computer vision (CV), self-supervised learning (SSL) has gained significant attention in the motion prediction community for learning rich and transferable scene representations. Nonetheless, existing pre-training methods for motion prediction have largely focused on specific model architectures and single dataset, limiting their scalability and generalizability. To address these challenges, we propose SmartPretrain, a general and scalable SSL framework for motion prediction that is both model-agnostic and dataset-agnostic. Our approach integrates contrastive and reconstructive SSL, leveraging the strengths of both generative and discriminative paradigms to effectively represent spatiotemporal evolution and interactions without imposing architectural constraints. Additionally, SmartPretrain employs a dataset-agnostic scenario sampling strategy that integrates multiple datasets, enhancing data volume, diversity, and robustness. Extensive experiments on multiple datasets demonstrate that SmartPretrain consistently improves the performance of state-of-the-art prediction models across datasets, data splits and main metrics. For instance, SmartPretrain significantly reduces the MissRate of Forecast-MAE by 10.6%. These results highlight SmartPretrain’s effectiveness as a unified, scalable solution for motion prediction, breaking free from the limitations of the small-data regime. Codes are available at https://github.com/youngzhou1999/SmartPretrain
arxiv情報
著者 |
Yang Zhou,Hao Shao,Letian Wang,Steven L. Waslander,Hongsheng Li,Yu Liu |
発行日 |
2024-10-11 09:52:26+00:00 |
arxivサイト |
arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google