要約
パーソナライズされた動作計画は都市自動運転において非常に重要であり、個々のユーザーの固有の要件に応えます。
それにもかかわらず、これまでの取り組みでは、複雑な都市設定内での個人化された計画と、データ活用による計画パフォーマンスの向上という 2 つの重要な側面に同時に対処することが困難になることがよくありました。
この課題は、ユーザー データの高価で制限された性質と、無限に向かう傾向にあるシーン状態空間から生じます。
これらの要因は、モデルのトレーニング中の過学習や貧弱な汎化問題の原因となります。
今後、私たちはインスタンスベースの転移模倣学習アプローチを提案します。
この方法は、広範な専門家ドメイン データからユーザー ドメインへの知識の伝達を容易にし、これらの問題に対する根本的な解決策を示します。
最初に、大規模な専門家データを使用して、事前トレーニングされたモデルをトレーニングします。
その後、微調整フェーズで、専門家データとユーザー データで構成されるバッチ データをフィードします。
逆強化学習手法を使用して、ユーザーのデモンストレーションからスタイルの特徴分布を抽出し、ユーザーのスタイルを近似するための正則化項を構築します。
実験では、提案された手法について広範な評価を行いました。
ベースライン手法と比較して、私たちのアプローチは、まばらなユーザー データによって引き起こされる過剰適合の問題を軽減します。
さらに、エンドツーエンドのパーソナライズされた微調整のための安全保護層として、運転モデルを微分可能な非線形オプティマイザーと統合すると、優れた計画パフォーマンスが得られることがわかりました。
要約(オリジナル)
Personalized motion planning holds significant importance within urban automated driving, catering to the unique requirements of individual users. Nevertheless, prior endeavors have frequently encountered difficulties in simultaneously addressing two crucial aspects: personalized planning within intricate urban settings and enhancing planning performance through data utilization. The challenge arises from the expensive and limited nature of user data, coupled with the scene state space tending towards infinity. These factors contribute to overfitting and poor generalization problems during model training. Henceforth, we propose an instance-based transfer imitation learning approach. This method facilitates knowledge transfer from extensive expert domain data to the user domain, presenting a fundamental resolution to these issues. We initially train a pre-trained model using large-scale expert data. Subsequently, during the fine-tuning phase, we feed the batch data, which comprises expert and user data. Employing the inverse reinforcement learning technique, we extract the style feature distribution from user demonstrations, constructing the regularization term for the approximation of user style. In our experiments, we conducted extensive evaluations of the proposed method. Compared to the baseline methods, our approach mitigates the overfitting issue caused by sparse user data. Furthermore, we discovered that integrating the driving model with a differentiable nonlinear optimizer as a safety protection layer for end-to-end personalized fine-tuning results in superior planning performance.
arxiv情報
著者 | Fangze Lin,Ying He,Fei Yu |
発行日 | 2024-07-31 14:53:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google