Mitigating Negative Side Effects in Multi-Agent Systems Using Blame Assignment

要約

個々のタスクを完了するように個別にトレーニング (または設計) されたエージェントが共有環境に配置される場合、その共同動作によってマイナスの副作用 (NSE) が生じる可能性があります。
エージェントの訓練では他のエージェントの行動や環境に対する共同行動の影響が考慮されていないため、エージェントは自分の行動の NSE について事前の知識を持っていません。
我々は、協調的なマルチエージェント システムにおける NSE を軽減する問題を、2 つの目的を持つ辞書編集的分散マルコフ決定プロセスとしてモデル化します。
エージェントは、NSE を軽減しながら、割り当てられたタスクの完了を最適化する必要があります。
エージェントのタスクに関する遷移と報酬は独立していると仮定しますが、この設定では共同 NSE ペナルティによって依存関係が生じます。
スケーラビリティを向上させるために、共同 NSE ペナルティはクレジット割り当てを使用して各エージェントの個別のペナルティに分解され、分散型ポリシーの計算が容易になります。
3 つのドメインでのシミュレーション結果は、システム内のエージェントのサブセットのポリシーを更新することで NSE を軽減するアプローチの有効性とスケーラビリティを示しています。

要約(オリジナル)

When agents that are independently trained (or designed) to complete their individual tasks are deployed in a shared environment, their joint actions may produce negative side effects (NSEs). As their training does not account for the behavior of other agents or their joint action effects on the environment, the agents have no prior knowledge of the NSEs of their actions. We model the problem of mitigating NSEs in a cooperative multi-agent system as a Lexicographic Decentralized Markov Decision Process with two objectives. The agents must optimize the completion of their assigned tasks while mitigating NSEs. We assume independence of transitions and rewards with respect to the agents’ tasks but the joint NSE penalty creates a form of dependence in this setting. To improve scalability, the joint NSE penalty is decomposed into individual penalties for each agent using credit assignment, which facilitates decentralized policy computation. Our results in simulation on three domains demonstrate the effectiveness and scalability of our approach in mitigating NSEs by updating the policies of a subset of agents in the system.

arxiv情報

著者 Pulkit Rustagi,Sandhya Saisubramanian
発行日 2024-05-07 22:42:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO パーマリンク