要約
模倣学習は、専門知識を活用することにより、トレーニングエージェントにとって強力なツールであり、特定の軌道を複製できることは、その不可欠な部分です。
最新の3Dビデオゲームのような複雑な環境では、配信シフトと確率性は、単純なアクションリプレイを超えて堅牢なアプローチを必要とします。
この調査では、さまざまなエンコーダを持つ逆ダイナミクスモデル(IDM)を適用し、ポリシーは最新の3DビデオゲームであるBleeding Edgeに続きます。
さらに、エージェントのアレアトリックの不確実性と不完全性によって引き起こされる分布シフトに対処するいくつかの将来のアライメント戦略を調査します。
軌道偏差距離と、参照とエージェントの軌道の間の最初の重要な偏差点の両方を測定し、最適な構成が選択した設定に依存することを示します。
私たちの結果は、多様なデータ設定では、ゼロからトレーニングされたエンコーダーを備えたGPTスタイルのポリシーヘッドが最高のパフォーマンスを発揮することを示しています。GPTスタイルのポリシーヘッドを備えたDINOV2エンコーダーは、低データレジームで最高の結果をもたらし、GPTスタイルとMLPスタイルの両方のポリシーヘッドは、特定の環境と繊細な環境で事前に導かれたときに同等の結果をもたらしました。
要約(オリジナル)
Imitation learning is a powerful tool for training agents by leveraging expert knowledge, and being able to replicate a given trajectory is an integral part of it. In complex environments, like modern 3D video games, distribution shift and stochasticity necessitate robust approaches beyond simple action replay. In this study, we apply Inverse Dynamics Models (IDM) with different encoders and policy heads to trajectory following in a modern 3D video game — Bleeding Edge. Additionally, we investigate several future alignment strategies that address the distribution shift caused by the aleatoric uncertainty and imperfections of the agent. We measure both the trajectory deviation distance and the first significant deviation point between the reference and the agent’s trajectory and show that the optimal configuration depends on the chosen setting. Our results show that in a diverse data setting, a GPT-style policy head with an encoder trained from scratch performs the best, DINOv2 encoder with the GPT-style policy head gives the best results in the low data regime, and both GPT-style and MLP-style policy heads had comparable results when pre-trained on a diverse setting and fine-tuned for a specific behaviour setting.
arxiv情報
著者 | Marko Tot,Shu Ishida,Abdelhak Lemkhenter,David Bignell,Pallavi Choudhury,Chris Lovett,Luis França,Matheus Ribeiro Furtado de Mendonça,Tarun Gupta,Darren Gehring,Sam Devlin,Sergio Valcarcel Macua,Raluca Georgescu |
発行日 | 2025-04-16 17:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google