Words2Contact: Identifying Support Contacts from Verbal Instructions Using Foundation Models

要約

このペーパーでは、大規模言語モデルとビジョン言語モデルを活用した、言語ガイド付きのマルチコンタクト配置パイプラインである Words2Contact について説明します。
私たちの方法は、言語支援遠隔操作と人間とロボットの協力のための重要なコンポーネントであり、人間のオペレーターは、自然言語を使用して全身に手を伸ばしたり操作したりする前に、ロボットにサポート連絡先を配置する場所を指示できます。
Words2Contact は、人間のオペレーターの口頭指示を接触位置の予測に変換します。
また、ロボットの視野内で特定された接触位置に人間が満足するまで、反復的な修正も行います。
当社では、最先端の LLM と VLM のサイズと接触予測のパフォーマンスをベンチマークします。
私たちは反復補正プロセスの有効性を実証し、ユーザーがたとえ初心者であっても、正確な位置を取得するようにシステムに指示する方法をすぐに習得することを示しています。
最後に、Talos 人型ロボットを使用した現実世界の実験で Words2Contact を検証します。この実験では、人間のオペレーターが、遠くの物体に手を伸ばすときに落ちないようにサポート コンタクトをさまざまな場所や表面に配置するよう指示します。

要約(オリジナル)

This paper presents Words2Contact, a language-guided multi-contact placement pipeline leveraging large language models and vision language models. Our method is a key component for language-assisted teleoperation and human-robot cooperation, where human operators can instruct the robots where to place their support contacts before whole-body reaching or manipulation using natural language. Words2Contact transforms the verbal instructions of a human operator into contact placement predictions; it also deals with iterative corrections, until the human is satisfied with the contact location identified in the robot’s field of view. We benchmark state-of-the-art LLMs and VLMs for size and performance in contact prediction. We demonstrate the effectiveness of the iterative correction process, showing that users, even naive, quickly learn how to instruct the system to obtain accurate locations. Finally, we validate Words2Contact in real-world experiments with the Talos humanoid robot, instructed by human operators to place support contacts on different locations and surfaces to avoid falling when reaching for distant objects.

arxiv情報

著者 Dionis Totsila,Quentin Rouxel,Jean-Baptiste Mouret,Serena Ivaldi
発行日 2024-07-19 11:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク