Active Reward Learning from Online Preferences

要約

ロボット ポリシーは、人間の好みや新しい環境に適応する必要があります。
人間の専門家は、ロボットがこの適応を達成するために必要なドメイン知識を持っている場合があります。
ただし、既存の作業では、多くの場合、人間のフィードバックに関するコストのかかるオフラインでの再トレーニングが必要になります。また、これらのフィードバックは通常、頻繁に行われる必要があり、人間が確実に提供するには複雑すぎる必要があります。
人間の専門家に過度の負担をかけることを避け、重要な現実世界の状況で迅速に適応できるようにするために、オンラインで回答しやすいペアワイズ アクション設定クエリを設計し、控えめに提示することを提案します。
私たちのアプローチは、クエリを設計し、クエリの情報から得られる期待値を最大化するためにいつそれらを提示するかを決定します。
シミュレーション、人間のユーザー研究、および実際のロボット実験での実験を使用して、アプローチを示します。
これらの設定では、人間の専門家に提示するクエリが少なくなる一方で、私たちのアプローチはベースライン手法よりも優れています。
実験のビデオ、コード、および付録は、https://sites.google.com/view/onlineactivepreferences にあります。

要約(オリジナル)

Robot policies need to adapt to human preferences and/or new environments. Human experts may have the domain knowledge required to help robots achieve this adaptation. However, existing works often require costly offline re-training on human feedback, and those feedback usually need to be frequent and too complex for the humans to reliably provide. To avoid placing undue burden on human experts and allow quick adaptation in critical real-world situations, we propose designing and sparingly presenting easy-to-answer pairwise action preference queries in an online fashion. Our approach designs queries and determines when to present them to maximize the expected value derived from the queries’ information. We demonstrate our approach with experiments in simulation, human user studies, and real robot experiments. In these settings, our approach outperforms baseline techniques while presenting fewer queries to human experts. Experiment videos, code and appendices are found at https://sites.google.com/view/onlineactivepreferences.

arxiv情報

著者 Vivek Myers,Erdem Bıyık,Dorsa Sadigh
発行日 2023-02-27 04:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク