Context-Aware Composition of Agent Policies by Markov Decision Process Entity Embeddings and Agent Ensembles

要約

計算エージェントは生活のさまざまな分野で人間をサポートするため、さまざまな状況で存在します。
これは、彼らが急速に変化する環境で活動し、巨大な状態と行動空間に直面する可能性があることを意味します。
目標指向の方法でサービスを実行しアクティビティを実行するには、エージェントは事前の知識を必要とするため、コンテキスト依存のポリシーを開発し、追求する必要があります。
ただし、ポリシーを事前に規定することは制限があり、特に動的に変化する環境では柔軟性がありません。
さらに、エージェントのコンテキストによってアクションの選択が決まります。
環境は状態や実行可能なアクションの数の点で確率的かつ複雑になる可能性があるため、アクティビティは通常マルコフ決定プロセスによって単純化された方法でモデル化され、たとえば強化学習を備えたエージェントがポリシーを学習できるようになり、状況を把握するのに役立ちます。
コンテキストに応じて行動し、アクティビティを最適に実行します。
ただし、強化学習を使用して考えられるすべてのコンテキストに対するポリシーをトレーニングするには時間がかかります。
エージェントの要件と課題は、戦略を迅速に学習し、インターネット、サービス ロボット工学、サイバー物理システムなどのクロスコンテキスト環境やアプリケーションで即座に対応することです。
この研究では、a) ナレッジ グラフとエンティティの埋め込みによる異種コンテキストの表現、b) 並行して実行されるエージェントのアンサンブルによるオンデマンドでのコンテキストを認識したポリシーの構成を可能にする、新しいシミュレーション ベースのアプローチを提案します。
「バーチャル ホーム」データセットを使用して実施した評価では、異なるコンテキスト間をシームレスに切り替える必要があるエージェントが、ポリシーを長時間学習することなく、コンテキストに適したアクティビティの正常な完了につながるオンデマンドの構成ポリシーを要求できることが示されています。
強化学習を使用するエージェントとは対照的に、トレーニングのステップとエピソード。

要約(オリジナル)

Computational agents support humans in many areas of life and are therefore found in heterogeneous contexts. This means they operate in rapidly changing environments and can be confronted with huge state and action spaces. In order to perform services and carry out activities in a goal-oriented manner, agents require prior knowledge and therefore have to develop and pursue context-dependent policies. However, prescribing policies in advance is limited and inflexible, especially in dynamically changing environments. Moreover, the context of an agent determines its choice of actions. Since the environments can be stochastic and complex in terms of the number of states and feasible actions, activities are usually modelled in a simplified way by Markov decision processes so that, e.g., agents with reinforcement learning are able to learn policies, that help to capture the context and act accordingly to optimally perform activities. However, training policies for all possible contexts using reinforcement learning is time-consuming. A requirement and challenge for agents is to learn strategies quickly and respond immediately in cross-context environments and applications, e.g., the Internet, service robotics, cyber-physical systems. In this work, we propose a novel simulation-based approach that enables a) the representation of heterogeneous contexts through knowledge graphs and entity embeddings and b) the context-aware composition of policies on demand by ensembles of agents running in parallel. The evaluation we conducted with the ‘Virtual Home’ dataset indicates that agents with a need to switch seamlessly between different contexts, can request on-demand composed policies that lead to the successful completion of context-appropriate activities without having to learn these policies in lengthy training steps and episodes, in contrast to agents that use reinforcement learning.

arxiv情報

著者 Nicole Merkle,Ralf Mikut
発行日 2023-08-30 11:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PF, F.2.2 パーマリンク