要約
自律走行車 (AV) エージェントのトレーニングのボトルネックの 1 つは、トレーニング環境の多様性です。
目に見えない環境に最適なポリシーを学習するには非常にコストがかかり、大量のデータ収集が必要になることが多いため、AV が遭遇する可能性のあるすべての環境やタスクについてエージェントをトレーニングすることは計算的に困難になります。
この論文では、過去の経験から学習したポリシーを補間して、目に見えないものに一般化するゼロショット フィルタリング アプローチを紹介します。
エクスペリエンス カーネルを使用して環境を関連付けます。
これらの相関関係は、学習されたポリシーから新しいタスクまたは環境用のポリシーを生成するために利用されます。
さまざまな特性を持つ T 字路を走行する自動運転車での手法を実証します。その動作は、部分的に観察可能なマルコフ決定プロセス (POMDP) としてモデル化されます。
まず、連続するアクションと観察のデータセットを与えられた未知の遷移関数を使用して、POMDP の学習されたポリシーのコンパクトな表現を構築します。
次に、以前に訪問した環境のパラメータ化されたポリシーをフィルタリングして、新しい未確認の環境に対するポリシーを生成します。
実際の AV と高忠実度シミュレーターの両方でアプローチを実証します。
結果は、当社のエクスペリエンス フィルターが、これまで見たことのないタスクや環境向けのポリシーを作成するための、高速かつ低労力で最適に近いソリューションを提供することを示しています。
さらに、生成された新しいポリシーは、過去の環境から収集されたデータ全体を使用して学習されたポリシーよりも優れており、異なる環境間の相関関係を悪用し、無関係な環境を除外できることを示唆しています。
要約(オリジナル)
One of the bottlenecks of training autonomous vehicle (AV) agents is the variability of training environments. Since learning optimal policies for unseen environments is often very costly and requires substantial data collection, it becomes computationally intractable to train the agent on every possible environment or task the AV may encounter. This paper introduces a zero-shot filtering approach to interpolate learned policies of past experiences to generalize to unseen ones. We use an experience kernel to correlate environments. These correlations are then exploited to produce policies for new tasks or environments from learned policies. We demonstrate our methods on an autonomous vehicle driving through T-intersections with different characteristics, where its behavior is modeled as a partially observable Markov decision process (POMDP). We first construct compact representations of learned policies for POMDPs with unknown transition functions given a dataset of sequential actions and observations. Then, we filter parameterized policies of previously visited environments to generate policies to new, unseen environments. We demonstrate our approaches on both an actual AV and a high-fidelity simulator. Results indicate that our experience filter offers a fast, low-effort, and near-optimal solution to create policies for tasks or environments never seen before. Furthermore, the generated new policies outperform the policy learned using the entire data collected from past environments, suggesting that the correlation among different environments can be exploited and irrelevant ones can be filtered out.
arxiv情報
著者 | Anil Yildiz,Esen Yel,Anthony L. Corso,Kyle H. Wray,Stefan J. Witwicki,Mykel J. Kochenderfer |
発行日 | 2023-05-29 21:57:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google