Blending Data-Driven Priors in Dynamic Games

要約

自動運転車のようなインテリジェントロボットが人の存在下で配備されることが増えているため、安全でインタラクションを意識した動作計画のために、これらのシステムがモデルベースのゲーム理論プランナーとデータ駆動型ポリシーをどの程度活用すべきかは未解決の問題のままです。
既存の動的ゲームの定式化では、すべてのエージェントがタスク主導型であり、最適に動作することを前提としています。
しかし、実際には、人間はこれらのモデルによって規定された決定から逸脱する傾向があり、人間の行動はノイズを含む合理的なパラダイムの下でよりよく近似されます。
この研究では、データ駆動型の参照ポリシーと最適化ベースのゲーム理論ポリシーを融合する原則に基づいた方法論を調査します。
我々は、一般的、確率的、そして場合によってはマルチモーダルな参照ポリシーに関して、カルバック・ライブラー (KL) 正則化を使用した非協調動的ゲームの一種である KLGame を定式化します。
私たちの方法には、意思決定者ごとに、タスク駆動型の動作とデータ駆動型の動作の間の調整を可能にする調整可能なパラメーターが組み込まれています。
KLGameのマルチモーダル近似フィードバックナッシュ均衡戦略をリアルタイムで計算するための効率的なアルゴリズムを提案します。
一連のシミュレートされた現実世界の自動運転シナリオを通じて、KLGame ポリシーが参照ポリシーからのガイダンスをより効果的に組み込むことができ、規則化されていないベースラインに対して騒々しく合理的な人間の行動を説明できることを実証します。

要約(オリジナル)

As intelligent robots like autonomous vehicles become increasingly deployed in the presence of people, the extent to which these systems should leverage model-based game-theoretic planners versus data-driven policies for safe, interaction-aware motion planning remains an open question. Existing dynamic game formulations assume all agents are task-driven and behave optimally. However, in reality, humans tend to deviate from the decisions prescribed by these models, and their behavior is better approximated under a noisy-rational paradigm. In this work, we investigate a principled methodology to blend a data-driven reference policy with an optimization-based game-theoretic policy. We formulate KLGame, a type of non-cooperative dynamic game with Kullback-Leibler (KL) regularization with respect to a general, stochastic, and possibly multi-modal reference policy. Our method incorporates, for each decision maker, a tunable parameter that permits modulation between task-driven and data-driven behaviors. We propose an efficient algorithm for computing multimodal approximate feedback Nash equilibrium strategies of KLGame in real time. Through a series of simulated and real-world autonomous driving scenarios, we demonstrate that KLGame policies can more effectively incorporate guidance from the reference policy and account for noisily-rational human behaviors versus non-regularized baselines.

arxiv情報

著者 Justin Lidard,Haimin Hu,Asher Hancock,Zixu Zhang,Albert Gimó Contreras,Vikash Modi,Jonathan DeCastro,Deepak Gopinath,Guy Rosman,Naomi Leonard,María Santos,Jaime Fernández Fisac
発行日 2024-02-23 22:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY, math.OC パーマリンク