要約
現実世界に導入された強化学習エージェントは、多くの場合、部分的に観測可能な環境に対処する必要があります。
したがって、ほとんどのエージェントは、環境の状態を近似するためにメモリ メカニズムを採用しています。
最近、主に Dota 2、StarCraft II、または MineCraft などのコンピューター ゲームの分野で、部分的に観測可能な環境をマスターするという印象的な成功事例があります。
ただし、エージェントが入力に基づいてどのアクションを実行するかを人間が理解できないという意味では、これらの方法はいずれも解釈可能ではありません。
しかし、このような手法を自動運転や医療用途などのリスクの高い分野に導入するには、人間の理解が必要です。
私たちは、意思決定プロセスを明らかにするために人間の言語に作用する新しい記憶メカニズムを提案します。
まず、CLIP を使用してビジュアル入力を言語トークンに関連付けます。
次に、これらのトークンを、エージェントに記憶として機能し、過去の一貫した解釈可能な表現を提供する事前トレーニング済みの言語モデルに供給します。
当社の記憶メカニズムは、タスクを解決するために過去を記憶することが重要な環境で最先端のパフォーマンスを実現します。
さらに、メモリ コンポーネントが優れている場合と、新しいアプローチの長所と短所が示されていない状況を示します。
要約(オリジナル)
Reinforcement learning agents deployed in the real world often have to cope with partially observable environments. Therefore, most agents employ memory mechanisms to approximate the state of the environment. Recently, there have been impressive success stories in mastering partially observable environments, mostly in the realm of computer games like Dota 2, StarCraft II, or MineCraft. However, none of these methods are interpretable in the sense that it is not comprehensible for humans how the agent decides which actions to take based on its inputs. Yet, human understanding is necessary in order to deploy such methods in high-stake domains like autonomous driving or medical applications. We propose a novel memory mechanism that operates on human language to illuminate the decision-making process. First, we use CLIP to associate visual inputs with language tokens. Then we feed these tokens to a pretrained language model that serves the agent as memory and provides it with a coherent and interpretable representation of the past. Our memory mechanism achieves state-of-the-art performance in environments where memorizing the past is crucial to solve tasks. Further, we present situations where our memory component excels or fails to demonstrate strengths and weaknesses of our new approach.
arxiv情報
著者 | Fabian Paischer,Thomas Adler,Markus Hofmarcher,Sepp Hochreiter |
発行日 | 2023-06-15 17:47:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google