Human-in-the-loop Learning for Dynamic Congestion Games

要約

現在、モバイル ユーザーはクラウドソーシング プラットフォーム (Waze など) を介してトラフィックの観察結果を学習し、共有しています。
しかし、そのようなプラットフォームは、最短の道を推奨するという利己的なユーザーの近視眼的な興味に応えるだけで、十分なユーザーが将来の他の人のために他の道を旅したり学んだりすることを奨励するものではありません。
これまでの研究は、ユーザーの情報学習を考慮せずにワンショットの渋滞ゲームに焦点を当てていましたが、私たちの研究では、ユーザーが人間参加型の方法で確率的パス上の交通状況をどのように学習して変更するかを研究しています。
私たちの分析では、近視眼的なルーティング ポリシーが確率的パスの深刻な探索不足につながることを示しています。
この結果、長期的な社会的コストを最小限に抑える社会的に最適な政策と比較して、アナーキーの代償 (PoA) は 2 ドルを超えます。
さらに、近視眼的なポリシーでは、ユーザーの交通危険に関する信念についての正しい学習収束を保証できません。
これに対処するために、価格設定よりも実装が簡単な情報 (非金銭的) メカニズムに焦点を当てます。
まず、ベイズ説得文献における既存の情報隠蔽メカニズムと決定論的パス推奨メカニズムは、(\text{PoA}=\infty) でも機能しないことを示します。
したがって、選択されたユーザー グループからすべての情報を非表示にし、他のユーザー グループに状態依存の確率的推奨を提供する、新しい非表示と確率的推奨 (CHAR) を組み合わせたメカニズムを提案します。
当社の CHAR は、PoA を (\frac{5}{4}) 未満に抑えることに成功しました。これは、他の情報 (非金銭的) メカニズムではこれ以上削減できません。
並列ネットワークに加えて、解析と CHAR を複数の中間ノードを持つより一般的な線形パス グラフにさらに拡張し、PoA の結果が変わらないことを証明しました。
さらに、実世界のデータセットを使用した実験を実行して、ルーティング グラフをさらに拡張し、CHAR の最適に近いパフォーマンスを検証します。

要約(オリジナル)

Today mobile users learn and share their traffic observations via crowdsourcing platforms (e.g., Waze). Yet such platforms simply cater to selfish users’ myopic interests to recommend the shortest path, and do not encourage enough users to travel and learn other paths for future others. Prior studies focus on one-shot congestion games without considering users’ information learning, while our work studies how users learn and alter traffic conditions on stochastic paths in a human-in-the-loop manner. Our analysis shows that the myopic routing policy leads to severe under-exploration of stochastic paths. This results in a price of anarchy (PoA) greater than $2$, as compared to the socially optimal policy in minimizing the long-term social cost. Besides, the myopic policy fails to ensure the correct learning convergence about users’ traffic hazard beliefs. To address this, we focus on informational (non-monetary) mechanisms as they are easier to implement than pricing. We first show that existing information-hiding mechanisms and deterministic path-recommendation mechanisms in Bayesian persuasion literature do not work with even (\text{PoA}=\infty). Accordingly, we propose a new combined hiding and probabilistic recommendation (CHAR) mechanism to hide all information from a selected user group and provide state-dependent probabilistic recommendations to the other user group. Our CHAR successfully ensures PoA less than (\frac{5}{4}), which cannot be further reduced by any other informational (non-monetary) mechanism. Besides the parallel network, we further extend our analysis and CHAR to more general linear path graphs with multiple intermediate nodes, and we prove that the PoA results remain unchanged. Additionally, we carry out experiments with real-world datasets to further extend our routing graphs and verify the close-to-optimal performance of our CHAR.

arxiv情報

著者 Hongbo Li,Lingjie Duan
発行日 2024-04-24 02:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT パーマリンク