A Song of Ice and Fire: Analyzing Textual Autotelic Agents in ScienceWorld

要約

多様な行動を自律的に発見できるオープンエンドのエージェントを構築することは、人工知能の長年の目標の 1 つです。
この課題は、オートテリック RL エージェント、つまり、学習カリキュラムを自己組織化して、自分の目標を選択して追求することによって学習するエージェントのフレームワークで研究できます。
最近の研究では、言語がオートテリック学習の重要な側面であると特定されました。特に、後知恵の再ラベル付けのために社会的ピアからの抽象的な目標サンプリングとガイダンスが可能になるためです。
この観点の中で、私たちは次の未解決の科学的疑問を研究します: ソーシャル ピアからの後知恵フィードバックの影響 (例: 選択的 vs. 網羅的)?
エージェントは、経験のリプレイで非常にまれな言語の目標の例からどのように学習できますか?
複数の探索方法を組み合わせて、より簡単な目標をより難しい目標に到達するための足がかりとして活用するにはどうすればよいでしょうか?
これらの質問に対処するために、豊富な抽象物理学と組み合わせ物理学を備えたテキスト環境である ScienceWorld を使用します。
ソーシャルピアのフィードバックからの選択性の重要性を示しています。
その経験のリプレイは、まれな目標の例を過剰にサンプリングする必要があります。
そして、エージェントの能力が中程度である自己生成された目標シーケンスに従うことは、最終的なパフォーマンスの大幅な改善につながります。

要約(オリジナル)

Building open-ended agents that can autonomously discover a diversity of behaviours is one of the long-standing goals of artificial intelligence. This challenge can be studied in the framework of autotelic RL agents, i.e. agents that learn by selecting and pursuing their own goals, self-organizing a learning curriculum. Recent work identified language as a key dimension of autotelic learning, in particular because it enables abstract goal sampling and guidance from social peers for hindsight relabelling. Within this perspective, we study the following open scientific questions: What is the impact of hindsight feedback from a social peer (e.g. selective vs. exhaustive)? How can the agent learn from very rare language goal examples in its experience replay? How can multiple forms of exploration be combined, and take advantage of easier goals as stepping stones to reach harder ones? To address these questions, we use ScienceWorld, a textual environment with rich abstract and combinatorial physics. We show the importance of selectivity from the social peer’s feedback; that experience replay needs to over-sample examples of rare goals; and that following self-generated goal sequences where the agent’s competence is intermediate leads to significant improvements in final performance.

arxiv情報

著者 Laetitia Teodorescu,Xingdi Yuan,Marc-Alexandre Côté,Pierre-Yves Oudeyer
発行日 2023-02-24 10:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク