要約
オフライン強化学習 (RL) は、さまざまなドメイン、特に複雑なナビゲーション タスクにおける動作モデリングのための模倣学習の強力な代替手段として登場しました。
オフライン RL の既存の課題は、信号対雑音比、つまり、値の推定誤差による不正確なポリシー更新を軽減する方法です。
これに向けて、複数の研究により、高レベルのパス計画を低レベルのパス追跡から分離する階層型オフライン RL 手法の利点が実証されています。
この研究では、空間の学習された量子化器を活用した、新しい階層トランスフォーマー ベースのアプローチを紹介します。
この量子化により、より単純なゾーン条件付きの低レベル ポリシーのトレーニングが可能になり、離散自己回帰予測に帰着する計画が簡素化されます。
他の利点の中でも、計画におけるゾーン レベルの推論により、ノイズを含む値関数の推定に基づいた暗黙的な結合ではなく、明示的な軌道結合が可能になります。
この変圧器ベースのプランナーとオフライン RL の最近の進歩を組み合わせることで、私たちが提案するアプローチは、複雑な長距離ナビゲーション環境で最先端の結果を達成します。
要約(オリジナル)
Offline Reinforcement Learning (RL) has emerged as a powerful alternative to imitation learning for behavior modeling in various domains, particularly in complex navigation tasks. An existing challenge with Offline RL is the signal-to-noise ratio, i.e. how to mitigate incorrect policy updates due to errors in value estimates. Towards this, multiple works have demonstrated the advantage of hierarchical offline RL methods, which decouples high-level path planning from low-level path following. In this work, we present a novel hierarchical transformer-based approach leveraging a learned quantizer of the space. This quantization enables the training of a simpler zone-conditioned low-level policy and simplifies planning, which is reduced to discrete autoregressive prediction. Among other benefits, zone-level reasoning in planning enables explicit trajectory stitching rather than implicit stitching based on noisy value function estimates. By combining this transformer-based planner with recent advancements in offline RL, our proposed approach achieves state-of-the-art results in complex long-distance navigation environments.
arxiv情報
著者 | Alexi Canesse,Mathieu Petitbois,Ludovic Denoyer,Sylvain Lamprier,Rémy Portelas |
発行日 | 2024-11-12 12:49:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google