Supervised Reward Inference

要約

行動からの推論に報いるための既存のアプローチは、通常、人間が特定の行動モデルに従ってデモを提供すると仮定します。
しかし、人間はしばしば、目標を達成するのではなく、目標を達成するのではなく通信することを目的とした行動まで、最適ではない行動から、幅広い行動から目標を示しています。
監督された学習は、あらゆるクラスの行動から報酬機能を推測するための統一されたフレームワークを提供し、そのようなアプローチが軽度の仮定の下で漸近的にベイズ最適であることを示すことを提案します。
シミュレートされたロボット操作タスクの実験は、私たちの方法がさまざまなarbitrarily意的に準最適なデモンストレーションからの報酬を効率的に推測できることを示しています。

要約(オリジナル)

Existing approaches to reward inference from behavior typically assume that humans provide demonstrations according to specific models of behavior. However, humans often indicate their goals through a wide range of behaviors, from actions that are suboptimal due to poor planning or execution to behaviors which are intended to communicate goals rather than achieve them. We propose that supervised learning offers a unified framework to infer reward functions from any class of behavior, and show that such an approach is asymptotically Bayes-optimal under mild assumptions. Experiments on simulated robotic manipulation tasks show that our method can efficiently infer rewards from a wide variety of arbitrarily suboptimal demonstrations.

arxiv情報

著者 Will Schwarzer,Jordan Schneider,Philip S. Thomas,Scott Niekum
発行日 2025-02-25 18:42:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク