要約
この研究では、動作予測のタスクへの自己教師あり学習 (SSL) の適用を検討します。この領域は、コンピューター ビジョンと自然言語処理において SSL が広く成功しているにもかかわらず、まだ広範囲に調査されていません。
このギャップに対処するために、動き予測タスクの自己教師あり学習用に特別に設計されたマスク オートエンコーダー フレームワークの拡張機能である Forecast-MAE を導入します。
私たちのアプローチには、エージェントの軌跡と道路網の間の強力な相互接続を活用する新しいマスキング戦略が含まれており、エージェントの将来または履歴の軌跡の相補的なマスキングと車線セグメントのランダムなマスキングが含まれます。
困難な Argoverse 2 動き予測ベンチマークに関する私たちの実験では、誘導バイアスを最小限に抑えた標準の Transformer ブロックを利用する Forecast-MAE が、教師あり学習と洗練された設計に依存する最先端の手法と比較して競争力のあるパフォーマンスを達成することが示されています。
さらに、以前の自己教師あり学習方法を大幅に上回ります。
コードは https://github.com/jchengai/forecast-mae で入手できます。
要約(オリジナル)
This study explores the application of self-supervised learning (SSL) to the task of motion forecasting, an area that has not yet been extensively investigated despite the widespread success of SSL in computer vision and natural language processing. To address this gap, we introduce Forecast-MAE, an extension of the mask autoencoders framework that is specifically designed for self-supervised learning of the motion forecasting task. Our approach includes a novel masking strategy that leverages the strong interconnections between agents’ trajectories and road networks, involving complementary masking of agents’ future or history trajectories and random masking of lane segments. Our experiments on the challenging Argoverse 2 motion forecasting benchmark show that Forecast-MAE, which utilizes standard Transformer blocks with minimal inductive bias, achieves competitive performance compared to state-of-the-art methods that rely on supervised learning and sophisticated designs. Moreover, it outperforms the previous self-supervised learning method by a significant margin. Code is available at https://github.com/jchengai/forecast-mae.
arxiv情報
著者 | Jie Cheng,Xiaodong Mei,Ming Liu |
発行日 | 2023-08-19 02:27:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google