Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion

要約

世界モデルを学習すると、世界が教師なしでどのように機能するかをエージェントに教えることができます。
シーケンス モデリングの特殊なケースと見なすこともできますが、自動運転などのロボット アプリケーションでのワールド モデルのスケーリングの進歩は、生成事前学習トランスフォーマー (GPT) を使用した言語モデルのスケーリングよりも若干遅いです。
私たちは、複雑で構造化されていない観測空間への対処と、スケーラブルな生成モデルの存在という 2 つの理由を主なボトルネックとして特定しています。
その結果、我々は、まず VQVAE を使用してセンサー観測をトークン化し、次に離散拡散によって将来を予測する、新しい世界モデリング アプローチを提案します。
トークンのデコードとノイズ除去を並行して効率的に行うために、いくつかの簡単な変更を加えて、Masked Generative Image Transformer を離散拡散フレームワークに再キャストし、顕著な改善をもたらしました。
点群観測のワールド モデルの学習に適用すると、NuScenes、KITTI Odometry、Argoverse2 データセット全体で、このモデルは以前の SOTA 面取り距離を 1 秒予測で 65% 以上、3 秒予測で 50% 以上削減します。
私たちの結果は、トークン化されたエージェント エクスペリエンスを離散的に拡散することで、ロボット エージェントに対する GPT のような教師なし学習の力を解き放つことができることを示しています。

要約(オリジナル)

Learning world models can teach an agent how the world works in an unsupervised manner. Even though it can be viewed as a special case of sequence modeling, progress for scaling world models on robotic applications such as autonomous driving has been somewhat less rapid than scaling language models with Generative Pre-trained Transformers (GPT). We identify two reasons as major bottlenecks: dealing with complex and unstructured observation space, and having a scalable generative model. Consequently, we propose a novel world modeling approach that first tokenizes sensor observations with VQVAE, then predicts the future via discrete diffusion. To efficiently decode and denoise tokens in parallel, we recast Masked Generative Image Transformer into the discrete diffusion framework with a few simple changes, resulting in notable improvement. When applied to learning world models on point cloud observations, our model reduces prior SOTA Chamfer distance by more than 65% for 1s prediction, and more than 50% for 3s prediction, across NuScenes, KITTI Odometry, and Argoverse2 datasets. Our results demonstrate that discrete diffusion on tokenized agent experience can unlock the power of GPT-like unsupervised learning for robotic agents.

arxiv情報

著者 Lunjun Zhang,Yuwen Xiong,Ze Yang,Sergio Casas,Rui Hu,Raquel Urtasun
発行日 2024-01-16 18:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク