要約
視覚環境における言語条件付き強化学習の新しいベンチマークである lilGym を紹介します。
lilGym は、インタラクティブな視覚環境に基づいた、人間が作成した 2,661 の高度に構成された自然言語ステートメントに基づいています。
すべてのステートメントに実行可能な Python プログラムの注釈を付けることで、考えられるあらゆる世界状態で正確な報酬を計算するための新しいアプローチを導入します。
各ステートメントは複数の開始状態および報酬関数と組み合わされて、さまざまな難易度の何千もの個別のマルコフ決定プロセスを形成します。
私たちはさまざまなモデルと学習体制を使って lilGym を実験します。
私たちの結果と分析は、既存の方法は自明ではないパフォーマンスを達成できる一方で、lilGym は困難な未解決の問題を形成していることを示しています。
lilGym は https://lil.nlp.cornell.edu/lilgym/ で利用できます。
要約(オリジナル)
We present lilGym, a new benchmark for language-conditioned reinforcement learning in visual environments. lilGym is based on 2,661 highly-compositional human-written natural language statements grounded in an interactive visual environment. We introduce a new approach for exact reward computation in every possible world state by annotating all statements with executable Python programs. Each statement is paired with multiple start states and reward functions to form thousands of distinct Markov Decision Processes of varying difficulty. We experiment with lilGym with different models and learning regimes. Our results and analysis show that while existing methods are able to achieve non-trivial performance, lilGym forms a challenging open problem. lilGym is available at https://lil.nlp.cornell.edu/lilgym/.
arxiv情報
著者 | Anne Wu,Kianté Brantley,Noriyuki Kojima,Yoav Artzi |
発行日 | 2023-05-29 15:44:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google