要約
自然言語入力、ユーザー入力、またはタスク文書から、ゲームプレイやロボット工学においてインテリジェントエージェントを訓練するためのシミュレーションを生成することは、依然として終わりのない課題です。
既存のアプローチは、報酬関数やタスクのハイパーパラメーターの生成など、この課題の一部に焦点を当てています。
以前の作品とは異なり、エージェントのトレーニングに使用できる言語入力からコードで完全なシミュレーションを生成する FACTORSIM を導入します。
コード化されたシミュレーションに特有の構造モジュール性を利用して、生成の各ステップ中のコンテキスト依存性を軽減できる因数分解された部分的に観察可能なマルコフ決定プロセス表現を使用することを提案します。
評価のために、生成されたシミュレーション コードの精度と強化学習設定でのゼロショット転送の促進における有効性を評価する生成シミュレーション ベンチマークを導入します。
我々は、FACTORSIM が、迅速な位置合わせ (精度など)、ゼロショット転送能力、人間による評価に関するシミュレーションの生成において、既存の方法よりも優れていることを示します。
また、ロボットタスクの生成におけるその有効性も実証します。
要約(オリジナル)
Generating simulations to train intelligent agents in game-playing and robotics from natural language input, from user input or task documentation, remains an open-ended challenge. Existing approaches focus on parts of this challenge, such as generating reward functions or task hyperparameters. Unlike previous work, we introduce FACTORSIM that generates full simulations in code from language input that can be used to train agents. Exploiting the structural modularity specific to coded simulations, we propose to use a factored partially observable Markov decision process representation that allows us to reduce context dependence during each step of the generation. For evaluation, we introduce a generative simulation benchmark that assesses the generated simulation code’s accuracy and effectiveness in facilitating zero-shot transfers in reinforcement learning settings. We show that FACTORSIM outperforms existing methods in generating simulations regarding prompt alignment (e.g., accuracy), zero-shot transfer abilities, and human evaluation. We also demonstrate its effectiveness in generating robotic tasks.
arxiv情報
著者 | Fan-Yun Sun,S. I. Harini,Angela Yi,Yihan Zhou,Alex Zook,Jonathan Tremblay,Logan Cross,Jiajun Wu,Nick Haber |
発行日 | 2024-11-11 08:16:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google