Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework

要約

有望な結果が達成されたにもかかわらず、最先端のインタラクティブな強化学習スキームは、継続的な監視または事前定義されたルールのいずれかの形で、アドバイザーの専門家からの監視信号を受動的に受信することに依存しており、必然的に面倒で費用のかかる学習プロセスが必要になります。
.
このホワイト ペーパーでは、Ask-AC と呼ばれる新しいイニシアチブ アドバイザー イン ザ ループ アクター クリティック フレームワークを紹介します。
学習者とアドバイザー間のメッセージ交換。
Ask-AC の中心にあるのは、アクション リクエスターと適応状態セレクターという 2 つの補完的なコンポーネントであり、さまざまな個別のアクター/クリティック アーキテクチャに容易に組み込むことができます。
前者のコンポーネントにより、エージェントは不確実な状態が存在する場合にアドバイザーの介入を自発的に求めることができますが、後者は、特に環境が変化したときに前者が見逃した可能性のある不安定な状態を識別し、そのような状態でのaskアクションを促進することを学習します.
定常環境と非定常環境の両方で、さまざまなアクター批評家バックボーンにわたる実験結果は、提案されたフレームワークがエージェントの学習効率を大幅に改善し、継続的なアドバイザー監視によって得られたものと同等のパフォーマンスを達成することを示しています。

要約(オリジナル)

Despite the promising results achieved, state-of-the-art interactive reinforcement learning schemes rely on passively receiving supervision signals from advisor experts, in the form of either continuous monitoring or pre-defined rules, which inevitably result in a cumbersome and expensive learning process. In this paper, we introduce a novel initiative advisor-in-the-loop actor-critic framework, termed as Ask-AC, that replaces the unilateral advisor-guidance mechanism with a bidirectional learner-initiative one, and thereby enables a customized and efficacious message exchange between learner and advisor. At the heart of Ask-AC are two complementary components, namely action requester and adaptive state selector, that can be readily incorporated into various discrete actor-critic architectures. The former component allows the agent to initiatively seek advisor intervention in the presence of uncertain states, while the latter identifies the unstable states potentially missed by the former especially when environment changes, and then learns to promote the ask action on such states. Experimental results on both stationary and non-stationary environments and across different actor-critic backbones demonstrate that the proposed framework significantly improves the learning efficiency of the agent, and achieves the performances on par with those obtained by continuous advisor monitoring.

arxiv情報

著者 Shunyu Liu,Na Yu,Jie Song,Kaixuan Chen,Zunlei Feng,Mingli Song
発行日 2023-03-21 11:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク