要約
自己回帰世界モデルは、ベクトル化されたシーンの理解において堅牢な一般化機能を示しますが、不十分な不確実性モデリングと自己妄想により、アクションを導き出す際に困難に直面します。
この論文では、複数の確率的仮説の定式化を通じてこれらの課題に対処することにより、自己回帰世界モデルから意思決定を導き出す実現可能性を探ります。
我々は、環境の次の状態と自車両の可能な行動を混合分布としてモデル化したフレームワークである LatentDriver を提案し、そこから決定論的な制御信号を導き出します。
混合モデリングを組み込むことにより、意思決定の確率的性質が捉えられます。
さらに、自己妄想の問題は、ディストリビューションからサンプリングされた中間アクションをワールド モデルに提供することによって軽減されます。
最近リリースされた閉ループ ベンチマーク Waymax の実験結果は、LatentDriver が最先端の強化学習および模倣学習手法を上回り、エキスパート レベルのパフォーマンスを達成することを示しています。
コードとモデルは https://github.com/Sephirex-X/LatentDriver で入手可能になります。
要約(オリジナル)
The autoregressive world model exhibits robust generalization capabilities in vectorized scene understanding but encounters difficulties in deriving actions due to insufficient uncertainty modeling and self-delusion. In this paper, we explore the feasibility of deriving decisions from an autoregressive world model by addressing these challenges through the formulation of multiple probabilistic hypotheses. We propose LatentDriver, a framework models the environment’s next states and the ego vehicle’s possible actions as a mixture distribution, from which a deterministic control signal is then derived. By incorporating mixture modeling, the stochastic nature of decisionmaking is captured. Additionally, the self-delusion problem is mitigated by providing intermediate actions sampled from a distribution to the world model. Experimental results on the recently released close-loop benchmark Waymax demonstrate that LatentDriver surpasses state-of-the-art reinforcement learning and imitation learning methods, achieving expert-level performance. The code and models will be made available at https://github.com/Sephirex-X/LatentDriver.
arxiv情報
著者 | Lingyu Xiao,Jiang-Jiang Liu,Sen Yang,Xiaofan Li,Xiaoqing Ye,Wankou Yang,Jingdong Wang |
発行日 | 2024-09-24 04:26:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google