要約
タイトル – 報酬に基づく模倣学習による連続決定タスクにおける人間に近いデータの合成的生成
要約 – 我々は、コンピュータゲームのようなインタラクティブな人間-AIシステム内で行われる人間の意思決定に近いデータを合成的に生成する問題について考える。我々は、非常に少数の人間の意思決定データから出発し、合成的に人間らしい意思決定データを生成する新しいアルゴリズムを提案する。我々が提案するアルゴリズムは報酬形状の概念を模倣学習アルゴリズムと統合して、合成データを生成することができる。我々はこの合成データ生成技術を検証し、3つの連続決定タスクを解決するためのプロキシとして使用した。結果、人間のデータを代替することができることがわかり、非常に低い偏りのある結果を得た。
要約(オリジナル)
We consider the problem of synthetically generating data that can closely resemble human decisions made in the context of an interactive human-AI system like a computer game. We propose a novel algorithm that can generate synthetic, human-like, decision making data while starting from a very small set of decision making data collected from humans. Our proposed algorithm integrates the concept of reward shaping with an imitation learning algorithm to generate the synthetic data. We have validated our synthetic data generation technique by using the synthetically generated data as a surrogate for human interaction data to solve three sequential decision making tasks of increasing complexity within a small computer game-like setup. Different empirical and statistical analyses of our results show that the synthetically generated data can substitute the human data and perform the game-playing tasks almost indistinguishably, with very low divergence, from a human performing the same tasks.
arxiv情報
| 著者 | Bryan Brandt,Prithviraj Dasgupta | 
| 発行日 | 2023-04-14 17:48:57+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, OpenAI
