要約
モデルフリーの学習ベースの制御手法は、複雑な車両特性の推定やパラメータ調整を回避する点で、従来の制御手法に比べて大きな利点があることが最近明らかになりました。
主要なポリシー学習方法として、模倣学習 (IL) は、専門家のデモンストレーションから直接制御ポリシーを学習できます。
ただし、IL ポリシーのパフォーマンスは、データの十分性とデモンストレーションの品質に大きく依存します。
IL ベースの政策の上記の問題を軽減するために、生涯学習 (LLL) を使用して IL スキームを拡張する生涯政策学習 (LLPL) フレームワークがこの論文で提案されています。
まず,経路追跡のための新しいILベースのモデルフリー制御ポリシー学習方法を紹介した。
たとえ不完全なデモンストレーションであっても、最適な制御ポリシーを過去の走行データから直接学習することができます。
2 番目に、LLL メソッドを使用すると、事前トレーニングされた IL ポリシーを安全に更新し、増分実行の知識を使用して微調整できます。
第三に、政策学習の知識評価方法を導入して、冗長または劣った知識の学習を回避し、オンライン政策学習のパフォーマンス向上を保証します。
提案手法の性能を評価するために、さまざまなシナリオで高忠実度の車両動的モデルを使用して実験が行われます。
その結果、提案された LLPL フレームワークは、収集された増分運転データを使用して政策パフォーマンスを継続的に向上させることができ、7 km の曲線道路で進化した後、他のベースライン手法と比較して最高の精度と制御の滑らかさを達成できることが示されています。
提案された LLPL フレームワークは、オフロード環境で収集されたノイズの多い現実のデータを使用した学習と評価を通じて、現実のシナリオでの学習と進化への適用可能性も実証します。
要約(オリジナル)
Model-free learning-based control methods have recently shown significant advantages over traditional control methods in avoiding complex vehicle characteristic estimation and parameter tuning. As a primary policy learning method, imitation learning (IL) is capable of learning control policies directly from expert demonstrations. However, the performance of IL policies is highly dependent on the data sufficiency and quality of the demonstrations. To alleviate the above problems of IL-based policies, a lifelong policy learning (LLPL) framework is proposed in this paper, which extends the IL scheme with lifelong learning (LLL). First, a novel IL-based model-free control policy learning method for path tracking is introduced. Even with imperfect demonstration, the optimal control policy can be learned directly from historical driving data. Second, by using the LLL method, the pre-trained IL policy can be safely updated and fine-tuned with incremental execution knowledge. Third, a knowledge evaluation method for policy learning is introduced to avoid learning redundant or inferior knowledge, thus ensuring the performance improvement of online policy learning. Experiments are conducted using a high-fidelity vehicle dynamic model in various scenarios to evaluate the performance of the proposed method. The results show that the proposed LLPL framework can continuously improve the policy performance with collected incremental driving data, and achieves the best accuracy and control smoothness compared to other baseline methods after evolving on a 7 km curved road. Through learning and evaluation with noisy real-life data collected in an off-road environment, the proposed LLPL framework also demonstrates its applicability in learning and evolving in real-life scenarios.
arxiv情報
著者 | C. Gong,C. Lu,Z. Li,Z. Liu,J. Gong,X. Chen |
発行日 | 2024-04-26 07:14:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google