Text2Interaction: Establishing Safe and Preferable Human-Robot Interaction

要約

ロボットの動作を人間の好みに合わせて調整するには、人間による集中的なフィードバックが必要となり、新しいユーザーや状況の変化にすぐに適応できなくなる可能性があります。
さらに、現在のアプローチは通常、ユーザーの好みを報酬として扱うため、タスクの成功とユーザーの満足度の間で手動のバランスをとる必要があります。
新しいユーザー設定をゼロショット方式で統合するために、私たちが提案する Text2Interaction フレームワークは、大規模な言語モデルを呼び出して、タスク プラン、Python コードとしてのモーション設定、および安全コントローラーのパラメーターを生成します。
報酬の加重合計ではなく、タスクの完了とユーザーの満足度を組み合わせた確率を最大化することで、両方の要件を満たすプランを確実に見つけることができます。
Text2Interaction を使用しているユーザーの 83 % が、Text2Interaction が自分の好みをロボットの計画に統合していることに同意し、94 % がベースラインより Text2Interaction を好むことがわかりました。
私たちのアブレーション研究では、Text2Interaction が他のベースラインよりも目に見えない好みとよりよく一致し、高い成功率を維持していることが示されています。
実際のデモとコードは、sites.google.com/view/text2interaction で入手できます。

要約(オリジナル)

Adjusting robot behavior to human preferences can require intensive human feedback, preventing quick adaptation to new users and changing circumstances. Moreover, current approaches typically treat user preferences as a reward, which requires a manual balance between task success and user satisfaction. To integrate new user preferences in a zero-shot manner, our proposed Text2Interaction framework invokes large language models to generate a task plan, motion preferences as Python code, and parameters of a safety controller. By maximizing the combined probability of task completion and user satisfaction instead of a weighted sum of rewards, we can reliably find plans that fulfill both requirements. We find that 83 % of users working with Text2Interaction agree that it integrates their preferences into the plan of the robot, and 94 % prefer Text2Interaction over the baseline. Our ablation study shows that Text2Interaction aligns better with unseen preferences than other baselines while maintaining a high success rate. Real-world demonstrations and code are made available at sites.google.com/view/text2interaction.

arxiv情報

著者 Jakob Thumm,Christopher Agia,Marco Pavone,Matthias Althoff
発行日 2024-10-18 14:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク