BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human Racing Gameplay

要約

模倣学習では、手作業で設計した報酬関数を必要とせずに、デモンストレーションからポリシーを学習します。
自律走行レースなどの多くのロボットタスクでは、模倣されたポリシーは複雑な環境力学と人間の意思決定をモデル化する必要があります。
シーケンス モデリングは、モーション シーケンスの複雑なパターンをキャプチャするのに非常に効果的ですが、現実世界のロボット タスクで一般的な新しい環境や分布の変化に適応するのは困難です。
対照的に、敵対的模倣学習 (AIL) はこの影響を軽減できますが、サンプルの非効率性と複雑な動作パターンの処理に苦労します。
したがって、人間のデモンストレーションからの Behavior Transformer (BeT) ポリシーとオンライン AIL を組み合わせた BeTAIL: Behavior Transformer Adversarial Imitation Learning を提案します。
BeTAIL は、AIL 残差ポリシーを BeT ポリシーに追加して、人間の専門家の一連の意思決定プロセスをモデル化し、分布外の状態や環境ダイナミクスの変化を修正します。
グランツーリスモ SPORT における実際の人間のゲームプレイの専門家レベルのデモンストレーションを使用して、3 つの課題で BeTAIL をテストします。
私たちが提案する残差 BeTAIL は、BeT が下流の学習とは異なるトラックで事前トレーニングされている場合でも、環境の相互作用を軽減し、レーシング パフォーマンスと安定性を向上させます。
ビデオとコードは https://sites.google.com/berkeley.edu/BeTAIL/home から入手できます。

要約(オリジナル)

Imitation learning learns a policy from demonstrations without requiring hand-designed reward functions. In many robotic tasks, such as autonomous racing, imitated policies must model complex environment dynamics and human decision-making. Sequence modeling is highly effective in capturing intricate patterns of motion sequences but struggles to adapt to new environments or distribution shifts that are common in real-world robotics tasks. In contrast, Adversarial Imitation Learning (AIL) can mitigate this effect, but struggles with sample inefficiency and handling complex motion patterns. Thus, we propose BeTAIL: Behavior Transformer Adversarial Imitation Learning, which combines a Behavior Transformer (BeT) policy from human demonstrations with online AIL. BeTAIL adds an AIL residual policy to the BeT policy to model the sequential decision-making process of human experts and correct for out-of-distribution states or shifts in environment dynamics. We test BeTAIL on three challenges with expert-level demonstrations of real human gameplay in Gran Turismo Sport. Our proposed residual BeTAIL reduces environment interactions and improves racing performance and stability, even when the BeT is pretrained on different tracks than downstream learning. Videos and code available at: https://sites.google.com/berkeley.edu/BeTAIL/home.

arxiv情報

著者 Catherine Weaver,Chen Tang,Ce Hao,Kenta Kawamoto,Masayoshi Tomizuka,Wei Zhan
発行日 2024-07-11 16:50:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク