Context-Aware Composition of Agent Policies by Markov Decision Process Entity Embeddings and Agent Ensembles

要約

計算エージェントは生活のさまざまな分野で人間をサポートするため、さまざまな状況で存在します。
これは、エージェントが急速に変化する環境で動作し、巨大な状態およびアクション空間に直面する可能性があることを意味します。
目標指向の方法でサービスを実行しアクティビティを実行するには、エージェントは事前の知識を必要とするため、コンテキスト依存のポリシーを開発し、追求する必要があります。
問題は、特に動的に変化する環境では、ポリシーを事前に規定することが制限され、柔軟性に欠けることです。
さらに、エージェントのコンテキストによってアクションの選択が決まります。
エージェントが動作する環境は、状態や実行可能なアクションの数の点で確率的かつ複雑になる可能性があるため、強化学習を備えたエージェントが状況を把握するのに役立つポリシーを学習できるように、アクティビティは通常マルコフ決定プロセスによって簡略化された方法でモデル化されます。
コンテキストに応じて行動し、アクティビティを最適に実行します。
ただし、強化学習を使用して考えられるすべてのコンテキストに対するポリシーをトレーニングするには時間がかかります。
エージェントの要件と課題は、戦略を迅速に学習し、クロスコンテキストの環境やアプリケーションで即座に対応することです。
この研究では、a) ナレッジ グラフとエンティティの埋め込みによる異種コンテキストの表現、b) 並行して実行されるエージェントのアンサンブルによるオンデマンドでのコンテキストを認識したポリシーの構成を可能にする、新しいシミュレーション ベースのアプローチを提案します。
「バーチャル ホーム」データセットに対して実行した評価は、異なるコンテキスト間をシームレスに切り替える必要があるエージェントが、これらのポリシーを学習することなく、コンテキストに適したアクティビティの正常な完了につながるオンザフライで構成されたポリシーを要求できることを示しています。
強化学習を適用するエージェントとは対照的に、長いトレーニング ステップとエピソードが含まれます。

要約(オリジナル)

Computational agents support humans in many areas of life and are therefore found in heterogeneous contexts. This means that agents operate in rapidly changing environments and can be confronted with huge state and action spaces. In order to perform services and carry out activities in a goal-oriented manner, agents require prior knowledge and therefore have to develop and pursue context-dependent policies. The problem is that prescribing policies in advance is limited and inflexible, especially in dynamically changing environments. Moreover, the context of an agent determines its choice of actions. Since the environments in which agents operate can be stochastic and complex in terms of the number of states and feasible actions, activities are usually modelled in a simplified way by Markov decision processes so that agents with reinforcement learning are able to learn policies that help to capture the context and act accordingly to optimally perform activities. However, training policies for all possible contexts using reinforcement learning is time-consuming. A requirement and challenge for agents is to learn strategies quickly and respond immediately in cross-context environments and applications. In this work, we propose a novel simulation-based approach that enables a) the representation of heterogeneous contexts through knowledge graphs and entity embeddings and b) the context-aware composition of policies on demand by ensembles of agents running in parallel. The evaluation we performed on the ‘Virtual Home’ dataset indicates that agents that need to seamlessly switch between different contexts, can request on-the-fly composed policies that lead to the successful completion of context-appropriate activities without having to learn these policies in lengthy training steps and episodes, in contrast to agents that apply reinforcement learning.

arxiv情報

著者 Nicole Merkle,Ralf Mikut
発行日 2023-08-28 12:13:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PF, F.2.2 パーマリンク