Human Choice Prediction in Language-based Non-Cooperative Games: Simulation-based Off-Policy Evaluation

要約

説得ゲームは経済学と AI 研究の基礎であり、実用化に大きく応用されています。
この分野の最近の作品では、従来の様式化されたメッセージ設定を超えて、自然言語が組み込まれ始めています。
ただし、これまでの研究は、トレーニング データとテスト データが同じ分布を持つポリシー上の予測に焦点を当てており、これは現実のシナリオを表していません。
この論文では、言語ベースの説得ゲームにおけるオフポリシー評価 (OPE) という困難な問題に取り組みます。
この設定における人間のデータ収集の固有の難しさに対処するために、実際の人間とボットの対話データとシミュレートされた人間とボットの対話データを組み合わせた新しいアプローチを提案します。
私たちのシミュレートされたデータは、意思決定者 (DM) がランダムな行動と意思決定理論に基づく行動の混合から始まり、時間の経過とともに改善されることを想定した外生モデルによって作成されています。
実際のインタラクションとシミュレートされたデータを効果的に統合し、インタラクション データのみでトレーニングするモデルよりも大幅に改善する深層学習トレーニング アルゴリズムを紹介します。
私たちの結果は、言語ベースの説得ゲームにおける OPE の費用対効果が高くスケーラブルなソリューションとして、実際のインタラクションとシミュレーションの混合の可能性を示しています。
私たちが収集および生成したコードと大規模なデータセットは補足資料として提出され、GitHub リポジトリで公開されています: https://github.com/eilamshapira/HumanChoicePrediction

要約(オリジナル)

Persuasion games have been fundamental in economics and AI research, and have significant practical applications. Recent works in this area have started to incorporate natural language, moving beyond the traditional stylized message setting. However, previous research has focused on on-policy prediction, where the train and test data have the same distribution, which is not representative of real-life scenarios. In this paper, we tackle the challenging problem of off-policy evaluation (OPE) in language-based persuasion games. To address the inherent difficulty of human data collection in this setup, we propose a novel approach which combines real and simulated human-bot interaction data. Our simulated data is created by an exogenous model assuming decision makers (DMs) start with a mixture of random and decision-theoretic based behaviors and improve over time. We present a deep learning training algorithm that effectively integrates real interaction and simulated data, substantially improving over models that train only with interaction data. Our results demonstrate the potential of real interaction and simulation mixtures as a cost-effective and scalable solution for OPE in language-based persuasion games. Our code and the large dataset we collected and generated are submitted as supplementary material and publicly available in our GitHub repository: https://github.com/eilamshapira/HumanChoicePrediction

arxiv情報

著者 Eilam Shapira,Reut Apel,Moshe Tennenholtz,Roi Reichart
発行日 2023-11-29 13:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG パーマリンク