要約
ロボットの動作を人間の好みに合わせて調整するには、人間による集中的なフィードバックが必要となり、新しいユーザーや状況の変化にすぐに適応できなくなる可能性があります。
さらに、現在のアプローチは通常、ユーザーの好みを報酬として扱うため、タスクの成功とユーザーの満足度の間で手動のバランスをとる必要があります。
新しいユーザー設定をゼロショット方式で統合するために、私たちが提案する Text2Interaction フレームワークは、大規模な言語モデルを呼び出して、タスク プラン、Python コードとしてのモーション設定、および安全なコントローラーのパラメーターを生成します。
報酬の加重合計ではなく、タスクの完了とユーザーの満足度を組み合わせた確率を最大化することで、両方の要件を満たすプランを確実に見つけることができます。
Text2Interaction を使用しているユーザーの 83% が、Text2Interaction が自分の好みをロボットの計画に統合していることに同意し、94% がベースラインより Text2Interaction を好むことがわかりました。
私たちのアブレーション研究では、Text2Interaction が他のベースラインよりも目に見えない好みとよりよく一致し、高い成功率を維持していることが示されています。
要約(オリジナル)
Adjusting robot behavior to human preferences can require intensive human feedback, preventing quick adaptation to new users and changing circumstances. Moreover, current approaches typically treat user preferences as a reward, which requires a manual balance between task success and user satisfaction. To integrate new user preferences in a zero-shot manner, our proposed Text2Interaction framework invokes large language models to generate a task plan, motion preferences as Python code, and parameters of a safe controller. By maximizing the combined probability of task completion and user satisfaction instead of a weighted sum of rewards, we can reliably find plans that fulfill both requirements. We find that 83% of users working with Text2Interaction agree that it integrates their preferences into the robot’s plan, and 94% prefer Text2Interaction over the baseline. Our ablation study shows that Text2Interaction aligns better with unseen preferences than other baselines while maintaining a high success rate.
arxiv情報
著者 | Jakob Thumm,Christopher Agia,Marco Pavone,Matthias Althoff |
発行日 | 2024-08-12 12:43:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google