Robust Autonomy Emerges from Self-Play

要約

セルフプレイは、2人のプレイヤーとマルチプレイヤーゲームでパワーブレークスルーを持っています。
ここでは、自己プレイが別のドメインで驚くほど効果的な戦略であることを示します。
堅牢で自然主義的な運転は、前例のないスケールでのシミュレーションの自己プレイ(1.6 億〜kmの運転)から完全に現れていることを示しています。
これは、単一の8 gPUノードで1時間あたり42年間の主観的運転体験を合成およびトレーニングできるバッチシミュレーターであるGigaflowによって有効になります。
結果として生じるポリシーは、3つの独立した自律運転ベンチマークで最先端のパフォーマンスを実現します。
このポリシーは、トレーニング中に人間のデータを見ることなく、人間のドライバーの中で、記録された現実世界のシナリオでテストされたときに、以前の最先端を上回ります。
このポリシーは、人間の参照に対して評価され、前例のない堅牢性を達成すると現実的です。

要約(オリジナル)

Self-play has powered breakthroughs in two-player and multi-player games. Here we show that self-play is a surprisingly effective strategy in another domain. We show that robust and naturalistic driving emerges entirely from self-play in simulation at unprecedented scale — 1.6~billion~km of driving. This is enabled by Gigaflow, a batched simulator that can synthesize and train on 42 years of subjective driving experience per hour on a single 8-GPU node. The resulting policy achieves state-of-the-art performance on three independent autonomous driving benchmarks. The policy outperforms the prior state of the art when tested on recorded real-world scenarios, amidst human drivers, without ever seeing human data during training. The policy is realistic when assessed against human references and achieves unprecedented robustness, averaging 17.5 years of continuous driving between incidents in simulation.

arxiv情報

著者 Marco Cusumano-Towner,David Hafner,Alex Hertzberg,Brody Huval,Aleksei Petrenko,Eugene Vinitsky,Erik Wijmans,Taylor Killian,Stuart Bowers,Ozan Sener,Philipp Krähenbühl,Vladlen Koltun
発行日 2025-02-05 16:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク