要約
強化学習はいくつかの分野で目覚ましい成功を収めていますが、多くの手法が不慣れな状況に一般化できないため、現実世界への応用は限られています。
この研究では、エージェントのアクションに対する環境の応答が異なる場合に対応する、新しい遷移ダイナミクスへの一般化の問題を検討します。
たとえば、ロボットにかかる重力はその質量に依存し、ロボットの可動性を変化させます。
したがって、そのような場合には、環境がどのように反応するかを反映する外部状態情報と関連するコンテキスト情報に基づいてエージェントのアクションを条件付ける必要があります。
コンテキストに依存したポリシーの必要性は確立されていますが、コンテキストをアーキテクチャ的に組み込む方法についてはあまり注目されていません。
したがって、この研究では、一般化を改善するためにコンテキスト情報を行動学習にどのように組み込むべきかについての調査を紹介します。
この目的を達成するために、ニューラル ネットワーク アーキテクチャであるデシジョン アダプターを導入します。これは、アダプター モジュールの重みを生成し、コンテキスト情報に基づいてエージェントの動作を条件付けします。
我々は、デシジョン アダプターが以前に提案されたアーキテクチャの有用な一般化であることを示し、いくつかの環境で以前のアプローチと比較して優れた一般化パフォーマンスが得られることを経験的に示します。
これに加えて、Decision Adaptor は、いくつかの代替方法よりも無関係な注意をそらす変数に対してより堅牢です。
要約(オリジナル)
While reinforcement learning has achieved remarkable successes in several domains, its real-world application is limited due to many methods failing to generalise to unfamiliar conditions. In this work, we consider the problem of generalising to new transition dynamics, corresponding to cases in which the environment’s response to the agent’s actions differs. For example, the gravitational force exerted on a robot depends on its mass and changes the robot’s mobility. Consequently, in such cases, it is necessary to condition an agent’s actions on extrinsic state information and pertinent contextual information reflecting how the environment responds. While the need for context-sensitive policies has been established, the manner in which context is incorporated architecturally has received less attention. Thus, in this work, we present an investigation into how context information should be incorporated into behaviour learning to improve generalisation. To this end, we introduce a neural network architecture, the Decision Adapter, which generates the weights of an adapter module and conditions the behaviour of an agent on the context information. We show that the Decision Adapter is a useful generalisation of a previously proposed architecture and empirically demonstrate that it results in superior generalisation performance compared to previous approaches in several environments. Beyond this, the Decision Adapter is more robust to irrelevant distractor variables than several alternative methods.
arxiv情報
著者 | Michael Beukman,Devon Jarvis,Richard Klein,Steven James,Benjamin Rosman |
発行日 | 2023-10-25 14:50:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google