LLM Granularity for On-the-Fly Robot Control

要約

支援ロボットは、高齢者などの弱い立場にある人々の生活の質を向上させる可能性があるため、大きな注目を集めています。
コンピューター ビジョン、大規模な言語モデル、およびロボット工学の融合により、支援ロボットに「視覚言語モーター」モードが導入され、視覚と言語が支援ロボットに組み込まれ、プロアクティブかつインタラクティブな支援が可能になります。
これは次の疑問を引き起こします: \textit{視覚が信頼できなくなったり利用できなくなった状況では、ロボットを制御するために言語のみに頼ることができますか?つまり、支援ロボットの「言語モーター」モードの実行可能性ですか?} この研究は、答えを得る最初のステップを踏みます。
この質問は、1) さまざまな粒度の言語プロンプトに対する支援ロボットの応答を評価します。
2) ロボットをオンザフライで制御する必要性と実現可能性を探る。
私たちは、私たちの主張を裏付けるために、Sawyer 協働ロボットを設計し、実験を実施しました。
Turtlebot ロボットのケースは、支援ロボットが支援のために操縦する必要があるシナリオへのソリューションの適応を実証するように設計されています。
コードはコミュニティに役立つよう、間もなく GitHub でリリースされる予定です。

要約(オリジナル)

Assistive robots have attracted significant attention due to their potential to enhance the quality of life for vulnerable individuals like the elderly. The convergence of computer vision, large language models, and robotics has introduced the `visuolinguomotor’ mode for assistive robots, where visuals and linguistics are incorporated into assistive robots to enable proactive and interactive assistance. This raises the question: \textit{In circumstances where visuals become unreliable or unavailable, can we rely solely on language to control robots, i.e., the viability of the `linguomotor` mode for assistive robots?} This work takes the initial steps to answer this question by: 1) evaluating the responses of assistive robots to language prompts of varying granularities; and 2) exploring the necessity and feasibility of controlling the robot on-the-fly. We have designed and conducted experiments on a Sawyer cobot to support our arguments. A Turtlebot robot case is designed to demonstrate the adaptation of the solution to scenarios where assistive robots need to maneuver to assist. Codes will be released on GitHub soon to benefit the community.

arxiv情報

著者 Peng Wang,Mattia Robbiani,Zhihao Guo
発行日 2024-06-20 18:17:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク