要約
オフライン強化学習 (RL) は、積極的な対話を必要としない学習ポリシーの有望なフレームワークとして浮上しており、自動運転タスクにとって特に魅力的です。
Transformers の最近の成功は、オフライン RL をシーケンス モデリングとしてキャストすることを刺激し、長期的なタスクで優れたパフォーマンスを発揮します。
しかし、彼らは確率論的な環境では過度に楽観的であり、同じ行動によって同じ目標を一貫して達成できるという誤った仮定を持っています。
この論文では、追加の遷移モデルや複雑な生成モデルを導入せずに、確率的運転環境で計画を立てるための不確実性を考慮した意思決定トランスフォーマー (UNREST) を紹介します。
具体的には、UNREST は遷移と復帰の間の条件付き相互情報によって状態の不確実性を推定し、それに応じてシーケンスをセグメント化します。
UNREST は、運転環境の「不確実性の蓄積」と「時間的局所性」の特性を発見し、環境の遷移ではなくエージェントの行動の真の結果から学習するために、意思決定変換器におけるグローバルな収益をより不確実性の低い切り捨てられた収益に置き換えます。
また、慎重な計画を立てるために、推論中に環境の不確実性を動的に評価します。
広範な実験結果は、さまざまな運転シナリオにおける UNREST の優れたパフォーマンスと不確実性推定戦略の威力を実証しています。
要約(オリジナル)
Offline Reinforcement Learning (RL) has emerged as a promising framework for learning policies without active interactions, making it especially appealing for autonomous driving tasks. Recent successes of Transformers inspire casting offline RL as sequence modeling, which performs well in long-horizon tasks. However, they are overly optimistic in stochastic environments with incorrect assumptions that the same goal can be consistently achieved by identical actions. In this paper, we introduce an UNcertainty-awaRE deciSion Transformer (UNREST) for planning in stochastic driving environments without introducing additional transition or complex generative models. Specifically, UNREST estimates state uncertainties by the conditional mutual information between transitions and returns, and segments sequences accordingly. Discovering the `uncertainty accumulation’ and `temporal locality’ properties of driving environments, UNREST replaces the global returns in decision transformers with less uncertain truncated returns, to learn from true outcomes of agent actions rather than environment transitions. We also dynamically evaluate environmental uncertainty during inference for cautious planning. Extensive experimental results demonstrate UNREST’s superior performance in various driving scenarios and the power of our uncertainty estimation strategy.
arxiv情報
著者 | Zenan Li,Fan Nie,Qiao Sun,Fang Da,Hang Zhao |
発行日 | 2023-09-28 12:44:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google