要約
模倣学習の多くのアプリケーションでは、エージェントがトレーニング データで観察された動作の完全な分布を生成する必要があります。
たとえば、自動運転車の安全性をシミュレーションで評価するには、他の道路利用者の正確かつ多様な行動モデルが最も重要です。
この分布の現実性を改善する既存の方法は、通常、階層ポリシーに依存しています。
これらは、マルチモーダルな行動を引き起こす目標やペルソナなどのタイプに基づいてポリシーを条件付けします。
ただし、このような方法は、エージェントが外部要因にも反応する必要がある確率論的環境には不適切であることがよくあります。エージェントのタイプはトレーニング中に観察された将来の軌跡から推測されるため、これらの環境では、エージェントの動作に対する内部要因と外部要因の寄与を解きほぐす必要があります。
そして、内部要因、つまりエージェントの制御下にある要因のみがタイプにエンコードされます。
外部要因に関する将来の情報をエンコードすると、将来が不明で実際の将来から独立してタイプを描画する必要がある場合、テスト中にエージェントの不適切な反応が発生します。
我々はこの課題を、環境確率論下でのエージェントタイプの条件付き分布における分布シフトとして形式化しました。
私たちは、ランダムにサンプリングされた型の下での敵対的トレーニングによってこの変化を排除する、ロバスト型コンディショニング (RTC) を提案します。
大規模な Waymo Open Motion データセットを含む 2 つのドメインでの実験では、最先端のベースラインと比較して、タスクのパフォーマンスを維持または向上させながら、分布の現実性が向上していることが示されています。
要約(オリジナル)
Many applications of imitation learning require the agent to generate the full distribution of behaviour observed in the training data. For example, to evaluate the safety of autonomous vehicles in simulation, accurate and diverse behaviour models of other road users are paramount. Existing methods that improve this distributional realism typically rely on hierarchical policies. These condition the policy on types such as goals or personas that give rise to multi-modal behaviour. However, such methods are often inappropriate for stochastic environments where the agent must also react to external factors: because agent types are inferred from the observed future trajectory during training, these environments require that the contributions of internal and external factors to the agent behaviour are disentangled and only internal factors, i.e., those under the agent’s control, are encoded in the type. Encoding future information about external factors leads to inappropriate agent reactions during testing, when the future is unknown and types must be drawn independently from the actual future. We formalize this challenge as distribution shift in the conditional distribution of agent types under environmental stochasticity. We propose Robust Type Conditioning (RTC), which eliminates this shift with adversarial training under randomly sampled types. Experiments on two domains, including the large-scale Waymo Open Motion Dataset, show improved distributional realism while maintaining or improving task performance compared to state-of-the-art baselines.
arxiv情報
著者 | Maximilian Igl,Punit Shah,Paul Mougin,Sirish Srinivasan,Tarun Gupta,Brandyn White,Kyriacos Shiarlis,Shimon Whiteson |
発行日 | 2023-09-25 10:10:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google