Optimizing Algorithms From Pairwise User Preferences

要約

ロボット工学における典型的なブラックボックス最適化アプローチは、メトリックスコアからの学習に焦点を当てています。
ただし、すべての開発者がグラウンド トゥルースを利用できるわけではないため、常に可能であるとは限りません。
人間中心のコンテキストで適切なロボットの動作を学習するには、多くの場合、ユーザーにクエリを実行する必要がありますが、ユーザーは通常、正確な指標スコアを提供できません。
既存のアプローチは、暗黙的な報酬関数をモデル化するために人間のフィードバックを活用しています。
ただし、この報酬を効果的に獲得するのは困難または不可能な場合があります。
この研究では、ペアごとのユーザー設定に基づいてアルゴリズム パラメーター構成を高次元で最適化する SortCMA を導入します。
SortCMA は、報酬を直接モデル化することなく、ユーザー入力を効率的かつ堅牢に活用してパラメーター セットを見つけます。
この方法を、グラウンド トゥルースを使用しない市販の深度センサーの調整と、ロボットの動作に対する非常に複雑な設定を伴うロボットのソーシャル ナビゲーションに適用します。
私たちの方法がユーザーの目標に合わせて最適化することに成功したことを示し、ソーシャル ナビゲーションの結果を評価するためにユーザー調査を実行します。

要約(オリジナル)

Typical black-box optimization approaches in robotics focus on learning from metric scores. However, that is not always possible, as not all developers have ground truth available. Learning appropriate robot behavior in human-centric contexts often requires querying users, who typically cannot provide precise metric scores. Existing approaches leverage human feedback in an attempt to model an implicit reward function; however, this reward may be difficult or impossible to effectively capture. In this work, we introduce SortCMA to optimize algorithm parameter configurations in high dimensions based on pairwise user preferences. SortCMA efficiently and robustly leverages user input to find parameter sets without directly modeling a reward. We apply this method to tuning a commercial depth sensor without ground truth, and to robot social navigation, which involves highly complex preferences over robot behavior. We show that our method succeeds in optimizing for the user’s goals and perform a user study to evaluate social navigation results.

arxiv情報

著者 Leonid Keselman,Katherine Shih,Martial Hebert,Aaron Steinfeld
発行日 2023-08-08 20:36:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.RO, I.2.8 パーマリンク