To Analyze and Regulate Human-in-the-loop Learning for Congestion Games

要約

混雑ゲームでは、利己的なユーザーが最短経路に群がろうと近視眼的に行動し、ソーシャル プランナーは情報や支払いインセンティブを通じてそのような利己的なルーティングを規制するメカニズムを設計します。
ただし、そのようなメカニズムの設計には時間とともに変化する交通状況の知識が必要であり、過去の道路経験を学習してソーシャル プランナー (Waze や Google マップなど) に報告するのはユーザー自身です。
混雑ゲームとモバイル クラウドソーシングが融合する場合、利己的なユーザーが最適な活用と探索のトレードオフで最短以外のパスを探索するようにインセンティブを与えることが重要です。
まず、平均到着確率 $\lambda$ を持つユーザーのための 1 つの決定的パスと複数の確率的パスを備えた単純だが基本的な並列ルーティング ネットワークを考えます。
現在の近視眼的なルーティング ポリシー (Waze と Google Maps で広く使用されている) は、社会的最適条件と比較して、探索 (危険性信念が強い場合) と搾取 (危険性信念が弱い場合) の両方を見逃していることを証明します。
近視眼的な政策の探究が不十分なため、アナーキーの代償 (PoA) が \(\frac{1}{1-\rho^{\frac{1}{\lambda}}}\) よりも大きいことが証明されました。
、割引係数 \(\rho\rightarrow1\) として任意に大きくすることができます。
このような大きな効率損失を軽減するために、私たちは新しい選択的情報開示 (SID) メカニズムを提案します。ユーザーが到着時に確率的経路を探索しすぎるつもりの場合にのみ最新の交通情報を公開し、ユーザーが探索を怠りたい場合にはそのような情報を隠します。
探検する。
私たちのメカニズムが PoA を ~\(2\) 未満に減らすことに成功したことを証明します。
並列ルーティング ネットワークに加えて、メカニズムと PoA 結果を複数の中間ノードを持つ線形パス グラフにさらに拡張します。

要約(オリジナル)

In congestion games, selfish users behave myopically to crowd to the shortest paths, and the social planner designs mechanisms to regulate such selfish routing through information or payment incentives. However, such mechanism design requires the knowledge of time-varying traffic conditions and it is the users themselves to learn and report past road experiences to the social planner (e.g., Waze or Google Maps). When congestion games meet mobile crowdsourcing, it is critical to incentivize selfish users to explore non-shortest paths in the best exploitation-exploration trade-off. First, we consider a simple but fundamental parallel routing network with one deterministic path and multiple stochastic paths for users with an average arrival probability $\lambda$. We prove that the current myopic routing policy (widely used in Waze and Google Maps) misses both exploration (when strong hazard belief) and exploitation (when weak hazard belief) as compared to the social optimum. Due to the myopic policy’s under-exploration, we prove that the caused price of anarchy (PoA) is larger than \(\frac{1}{1-\rho^{\frac{1}{\lambda}}}\), which can be arbitrarily large as discount factor \(\rho\rightarrow1\). To mitigate such huge efficiency loss, we propose a novel selective information disclosure (SID) mechanism: we only reveal the latest traffic information to users when they intend to over-explore stochastic paths upon arrival, while hiding such information when they want to under-explore. We prove that our mechanism successfully reduces PoA to be less than~\(2\). Besides the parallel routing network, we further extend our mechanism and PoA results to any linear path graphs with multiple intermediate nodes.

arxiv情報

著者 Hongbo Li,Lingjie Duan
発行日 2025-01-06 14:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT パーマリンク