要約
人工エージェントと人間の間のコラボレーションを可能にするためには、次の自然言語命令が最も重要です。
自然言語条件付き強化学習 (RL) エージェントは、構成性などの自然言語の特性が、複雑なポリシーを学習するための強力な帰納的バイアスをどのように提供できるかを示しました。
HIGhER のような以前のアーキテクチャは、言語条件付けの利点と Hindsight Experience Replay (HER) を組み合わせて、報酬が少ない環境に対処します。
それでも、HER と同様に、HIGhER はオラクルの述語関数に依存して、どの言語記述がどの状態に対して有効であるかを強調するフィードバック信号を提供します。
このオラクルへの依存により、その適用が制限されます。
さらに、HIGhER は成功した RL 軌跡に含まれる言語情報のみを利用するため、最終的なパフォーマンスとデータ効率が損なわれます。
早期に成功した軌道がなければ、HIGhER はその基盤となっている DQN と何ら変わりません。
この論文では、Emergent Textual Hindsight Experience Replay (ETHER) エージェントを提案します。これは HIGhER に基づいて構築され、(i) 緊急コミュニケーション (EC) のサブフィールドで一般的に研究されている識別視覚参照ゲームによってその両方の制限に対処します。
、ここでは教師なし補助タスクとして使用され、(ii) 緊急言語を命令に従うベンチマークの自然言語と一致させるための意味論的基礎付けスキームとして使用されます。
私たちは、参照ゲームのエージェントが、BabyAI ベンチマークで目標を記述するために使用される自然に似た言語と一致する人工言語を出現させ、それが失敗した RL の軌跡も記述して RL にフィードバックを提供できるほど十分な表現力があることを示します。
エージェントは、すべての軌跡に含まれる言語的で構造化された情報を活用します。
私たちの研究は、EC が RL にとって実行可能な教師なし補助タスクであり、HER をより広く適用できるようにするために欠けている部分を提供することを示しています。
要約(オリジナル)
Natural language instruction following is paramount to enable collaboration between artificial agents and human beings. Natural language-conditioned reinforcement learning (RL) agents have shown how natural languages’ properties, such as compositionality, can provide a strong inductive bias to learn complex policies. Previous architectures like HIGhER combine the benefit of language-conditioning with Hindsight Experience Replay (HER) to deal with sparse rewards environments. Yet, like HER, HIGhER relies on an oracle predicate function to provide a feedback signal highlighting which linguistic description is valid for which state. This reliance on an oracle limits its application. Additionally, HIGhER only leverages the linguistic information contained in successful RL trajectories, thus hurting its final performance and data-efficiency. Without early successful trajectories, HIGhER is no better than DQN upon which it is built. In this paper, we propose the Emergent Textual Hindsight Experience Replay (ETHER) agent, which builds on HIGhER and addresses both of its limitations by means of (i) a discriminative visual referential game, commonly studied in the subfield of Emergent Communication (EC), used here as an unsupervised auxiliary task and (ii) a semantic grounding scheme to align the emergent language with the natural language of the instruction-following benchmark. We show that the referential game’s agents make an artificial language emerge that is aligned with the natural-like language used to describe goals in the BabyAI benchmark and that it is expressive enough so as to also describe unsuccessful RL trajectories and thus provide feedback to the RL agent to leverage the linguistic, structured information contained in all trajectories. Our work shows that EC is a viable unsupervised auxiliary task for RL and provides missing pieces to make HER more widely applicable.
arxiv情報
著者 | Kevin Denamganaï,Daniel Hernandez,Ozan Vardal,Sondess Missaoui,James Alfred Walker |
発行日 | 2023-12-17 10:30:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google