Sequential Resource Trading Using Comparison-Based Gradient Estimation

要約

自律エージェントは、他の自律エージェントや未知の好みを持つ人間と相互作用して、環境でリソースを共有します。
2つの貪欲に合理的なエージェントが有限のカテゴリセットからリソースを順番に取引する設定で、リソース割り当ての連続的な取引を検討します。
各エージェントには、各カテゴリにあるリソースの量に依存するユーティリティ関数があります。
提供エージェントは、応答エージェントのユーティリティ機能を知らずにユーティリティを改善するための貿易オファーを行い、応答エージェントはユーティリティを改善するオファーのみを受け入れます。
自律剤と別の自律剤または人間の間の協力を促進するために、私たちは、応答エージェントの勾配(設定)を推定し、以前の受け入れまたは拒否の反応に基づいてオファーを作成するための提供エージェントにアルゴリズムを提示します。
アルゴリズムの目標は、受け入れられた取引ごとに両方のエージェントのユーティリティが改善することを保証しながら、パレート最適なリソース割り当て状態に到達することです。
アルゴリズムは、潜在的な勾配の空間を剪定するために、拒否された申し出と貪欲な合理性の仮定を活用することにより、応答エージェントの勾配を推定します。
アルゴリズムが有限の数の拒否されたオファーを作成した後、アルゴリズムは相互に有益な取引を見つけたり、現在の状態が最適であることを証明することを示しています。
提案されたアルゴリズムを、継続的および離散的な取引シナリオのさまざまなベースラインと比較し、より少ないオファーで社会的利益を改善することを示します。
さらに、これらの調査結果は、人間の参加者とのユーザー調査で検証します。ここでは、エージェントの目標が整合しているため、リソースの競合が高いシナリオでアルゴリズムが高性能を達成します。

要約(オリジナル)

Autonomous agents interact with other autonomous agents and humans of unknown preferences to share resources in their environment. We explore sequential trading for resource allocation in a setting where two greedily rational agents sequentially trade resources from a finite set of categories. Each agent has a utility function that depends on the amount of resources it possesses in each category. The offering agent makes trade offers to improve its utility without knowing the responding agent’s utility function, and the responding agent only accepts offers that improve its utility. To facilitate cooperation between an autonomous agent and another autonomous agent or a human, we present an algorithm for the offering agent to estimate the responding agent’s gradient (preferences) and make offers based on previous acceptance or rejection responses. The algorithm’s goal is to reach a Pareto-optimal resource allocation state while ensuring that the utilities of both agents improve after every accepted trade. The algorithm estimates the responding agent’s gradient by leveraging the rejected offers and the greedy rationality assumption, to prune the space of potential gradients. We show that, after the algorithm makes a finite number of rejected offers, the algorithm either finds a mutually beneficial trade or certifies that the current state is epsilon-weakly Pareto optimal. We compare the proposed algorithm against various baselines in continuous and discrete trading scenarios and show that it improves the societal benefit with fewer offers. Additionally, we validate these findings in a user study with human participants, where the algorithm achieves high performance in scenarios with high resource conflict due to aligned agent goals.

arxiv情報

著者 Surya Murthy,Mustafa O. Karabag,Ufuk Topcu
発行日 2025-05-27 16:36:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, math.OC パーマリンク