要約
さまざまなリソース割り当ての問題は、これらのリソースよりも好みを評価および伝達するエージェントとともに、中央仲裁人によって管理されるリソース制約の下で機能します。
分散評価、集中配分(DECA)の問題としてこの広範なクラスの問題を策定し、集中リソース割り当てで公正かつ効率的なポリシーを学ぶ方法を提案します。
私たちの方法は、マルチエージェントシステムにおける公平性のための斬新で一般的な枠組みにおける長期的な公平性を学習することに適用されます。
ダブルディープQラーニングに基づいて3つの異なる方法を示します。(1)公平性とユーティリティの共同加重最適化、(2)分割最適化、ユーティリティと公平性のための2つの個別のQエスティメーターの学習、および(3)オンラインポリシー
既存のブラックボックスユーティリティ機能を公正なソリューションに導くための摂動。
私たちの方法は、多様な公平性関数を使用して評価された場合でも、複数のリソース割り当てドメインで既存の公正なMARLアプローチを上回り、ユーティリティと公平性の間の柔軟なオンライントレードオフを可能にします。
要約(オリジナル)
A wide variety of resource allocation problems operate under resource constraints that are managed by a central arbitrator, with agents who evaluate and communicate preferences over these resources. We formulate this broad class of problems as Distributed Evaluation, Centralized Allocation (DECA) problems and propose methods to learn fair and efficient policies in centralized resource allocation. Our methods are applied to learning long-term fairness in a novel and general framework for fairness in multi-agent systems. We show three different methods based on Double Deep Q-Learning: (1) A joint weighted optimization of fairness and utility, (2) a split optimization, learning two separate Q-estimators for utility and fairness, and (3) an online policy perturbation to guide existing black-box utility functions toward fair solutions. Our methods outperform existing fair MARL approaches on multiple resource allocation domains, even when evaluated using diverse fairness functions, and allow for flexible online trade-offs between utility and fairness.
arxiv情報
著者 | Ashwin Kumar,William Yeoh |
発行日 | 2025-02-06 18:29:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google