要約
労働者の不確実性は、探査と開発の間のトレードオフを通じて、既存の提案における標準的なコンビナトリアル多腕バンディット(CMAB)フレームワークによって対処できますが、個々の労働者間のトレードオフを可能にするのに十分な予算がない可能性があります。
特に、予算が限られている中で従業員の数が多い場合はそうです。
さらに、標準の CMAB は通常、労働者が常にシステムに留まると想定していますが、労働者は時間の経過とともにシステムに参加したり、システムから離脱したりする可能性があるため、個々の労働者について学習した内容は、労働者が去った後に適用することはできません。
上記の困難な問題に対処するために、このホワイトペーパーでは、まずオフラインの Context-Aware CMAB-based Incentive (CACI) メカニズムを提案します。
私たちは、個々の労働者ではなく、精巧に分割されたコンテキスト空間で探査と搾取のトレードオフを活用する革新的な手法を導入し、非常に限られた予算で未知の大規模な労働者に効果的にインセンティブを与えます。
また、上記の基本的な考え方を、未知のワーカーがシステムに動的に参加またはシステムから離脱する可能性があるオンライン設定に拡張し、CACI メカニズムのオンライン バージョンを提案します。
具体的には、コンテキスト空間における活用と探索のトレードオフにより、未知のワーカー (これまでシステムに登場したことがなかったワーカーであっても) のコンテキスト情報に応じたセンシング能力を推定する方法を学習します。
私たちは、CACI メカニズムの後悔の上限を明らかにし、その真実性と個々の合理性をそれぞれ証明するために、厳密な理論分析を実行します。
メカニズムの有効性を検証するために、合成データセットと実際のデータセットの両方に対する広範な実験も行われます。
要約(オリジナル)
Although the uncertainties of the workers can be addressed by the standard Combinatorial Multi-Armed Bandit (CMAB) framework in existing proposals through a trade-off between exploration and exploitation, we may not have sufficient budget to enable the trade-off among the individual workers, especially when the number of the workers is huge while the budget is limited. Moreover, the standard CMAB usually assumes the workers always stay in the system, whereas the workers may join in or depart from the system over time, such that what we have learnt for an individual worker cannot be applied after the worker leaves. To address the above challenging issues, in this paper, we first propose an off-line Context-Aware CMAB-based Incentive (CACI) mechanism. We innovate in leveraging the exploration-exploitation trade-off in a elaborately partitioned context space instead of the individual workers, to effectively incentivize the massive unknown workers with very limited budget. We also extend the above basic idea to the on-line setting where unknown workers may join in or depart from the systems dynamically, and propose an on-line version of the CACI mechanism. Specifically, by the exploitation-exploration trade-off in the context space, we learn to estimate the sensing ability of any unknown worker (even it never appeared in the system before) according to its context information. We perform rigorous theoretical analysis to reveal the upper bounds on the regrets of our CACI mechanisms and to prove their truthfulness and individual rationality, respectively. Extensive experiments on both synthetic and real datasets are also conducted to verify the efficacy of our mechanisms.
arxiv情報
著者 | Feng Li,Yuqi Chai,Huan Yang,Pengfei Hu,Lingjie Duan |
発行日 | 2023-09-21 14:30:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google