Learn 2 Rage: Experiencing The Emotional Roller Coaster That Is Reinforcement Learning

要約

この作品は、AIcrowd が主催する Learn To Race Autonomous Racing Virtual Challenge 2022 で応募を勝ち取ったチームの実験とソリューションの概要を示しています。
Learn-to-Race コンテストの目的は、自動運転の安全上の利点の実現に重点を置き、自動運転技術の限界を押し広げることです。
説明では、この競技は強化学習 (RL) チャレンジとして構成されています。
私たちは最初の取り組みを Soft Actor Critic (SAC) バリアントの実装に集中しました。
私たちの目標は、視覚的および幾何学的特徴だけからレース カーの重要な制御を学習し、ピクセルを制御アクションに直接マッピングすることでした。
スムーズなステアリングと加速制御を促進することを目的として、デフォルトの報酬ポリシーに適切な変更を加えました。
コンテストのフレームワークはリアルタイム シミュレーションを提供しました。つまり、1 つのエピソード (学習体験) は数分で測定されます。
エピソードの並列化を追求する代わりに、視覚認識が (学習された演算子を介して) 処理され、ルールベースのコントローラーに供給される、より伝統的なアプローチを検討することを選択しました。
このようなシステムは、ピクセルからアクションへのアプローチほど学術的に「魅力的」ではありませんが、必要なトレーニングが少なく、より説明可能で、一般化が容易で、調整が容易なシステムとなり、最終的に競合他社のすべてのエージェントよりも優れたパフォーマンスを発揮します。
大差で。

要約(オリジナル)

This work presents the experiments and solution outline for our teams winning submission in the Learn To Race Autonomous Racing Virtual Challenge 2022 hosted by AIcrowd. The objective of the Learn-to-Race competition is to push the boundary of autonomous technology, with a focus on achieving the safety benefits of autonomous driving. In the description the competition is framed as a reinforcement learning (RL) challenge. We focused our initial efforts on implementation of Soft Actor Critic (SAC) variants. Our goal was to learn non-trivial control of the race car exclusively from visual and geometric features, directly mapping pixels to control actions. We made suitable modifications to the default reward policy aiming to promote smooth steering and acceleration control. The framework for the competition provided real time simulation, meaning a single episode (learning experience) is measured in minutes. Instead of pursuing parallelisation of episodes we opted to explore a more traditional approach in which the visual perception was processed (via learned operators) and fed into rule-based controllers. Such a system, while not as academically ‘attractive’ as a pixels-to-actions approach, results in a system that requires less training, is more explainable, generalises better and is easily tuned and ultimately out-performed all other agents in the competition by a large margin.

arxiv情報

著者 Lachlan Mares,Stefan Podgorski,Ian Reid
発行日 2024-10-24 06:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク