Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations

要約

現実世界の生物学的マルチエージェントのモデリングは、さまざまな科学および工学分野における基本的な問題です。
強化学習 (RL) は、サイバースペースで柔軟で多様な動作を生成するための強力なフレームワークです。
ただし、現実世界の生物学的マルチエージェントをモデル化する場合、ソース (つまり、現実世界のデータ) とターゲット (つまり、RL のサイバースペース) の動作の間にはドメイン ギャップがあり、ソース環境パラメーターは通常不明です。
この論文では、マルチエージェントシナリオでの実世界のデモンストレーションに基づいて、RL における適応アクション監視の方法を提案します。
未知のソースダイナミクスの情報を利用するための動的タイムワーピングの最小距離に基づいてRLでデモンストレーションのアクションを選択することにより、RLと教師あり学習を組み合わせたアプローチを採用します。
このアプローチは、多くの既存のニューラル ネットワーク アーキテクチャに簡単に適用でき、模倣としての再現性とサイバースペースで報酬を得る一般化能力の間でバランスのとれた RL モデルを提供します。
実験では、未知のソース環境とターゲット環境の間で異なるダイナミクスを伴う追跡と脱出およびフットボールのタスクを使用して、私たちのアプローチがベースラインと比較して再現性と汎化能力のバランスを達成していることを示しました。
特に、プロのサッカー選手の追跡データをサッカーの専門家のデモンストレーションとして使用し、ソース環境とターゲット環境での行動間のギャップが追跡および逃走タスクよりも大きいにもかかわらず、成功したパフォーマンスを示しました。

要約(オリジナル)

Modeling of real-world biological multi-agents is a fundamental problem in various scientific and engineering fields. Reinforcement learning (RL) is a powerful framework to generate flexible and diverse behaviors in cyberspace; however, when modeling real-world biological multi-agents, there is a domain gap between behaviors in the source (i.e., real-world data) and the target (i.e., cyberspace for RL), and the source environment parameters are usually unknown. In this paper, we propose a method for adaptive action supervision in RL from real-world demonstrations in multi-agent scenarios. We adopt an approach that combines RL and supervised learning by selecting actions of demonstrations in RL based on the minimum distance of dynamic time warping for utilizing the information of the unknown source dynamics. This approach can be easily applied to many existing neural network architectures and provide us with an RL model balanced between reproducibility as imitation and generalization ability to obtain rewards in cyberspace. In the experiments, using chase-and-escape and football tasks with the different dynamics between the unknown source and target environments, we show that our approach achieved a balance between the reproducibility and the generalization ability compared with the baselines. In particular, we used the tracking data of professional football players as expert demonstrations in football and show successful performances despite the larger gap between behaviors in the source and target environments than the chase-and-escape task.

arxiv情報

著者 Keisuke Fujii,Kazushi Tsutsui,Atom Scott,Hiroshi Nakahara,Naoya Takeishi,Yoshinobu Kawahara
発行日 2023-12-19 13:29:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク