LIT: Large Language Model Driven Intention Tracking for Proactive Human-Robot Collaboration — A Robot Sous-Chef Application

要約

Large Language Model (LLM) と Vision Language Model (VLM) を使用すると、ロボットは自然言語プロンプトを制御アクションに組み込んで、オープンワールドでタスクを達成できます。
ただし、この定式化を長期的な共同タスクに適用すると、タスクのすべての段階でロボットの動作を開始または明確にするための過剰なプロンプトが表示されます。
私たちは、LLM と VLM を活用して人間のユーザーの長期的な行動をモデル化し、ロボットをプロアクティブなコラボレーションに導く次の人間の意図を予測する、言語駆動型意図追跡 (LIT) を提案します。
共同調理タスクにおいて、LIT ベースの協働ロボットと人間ユーザーの間のスムーズな調整を実証します。

要約(オリジナル)

Large Language Models (LLM) and Vision Language Models (VLM) enable robots to ground natural language prompts into control actions to achieve tasks in an open world. However, when applied to a long-horizon collaborative task, this formulation results in excessive prompting for initiating or clarifying robot actions at every step of the task. We propose Language-driven Intention Tracking (LIT), leveraging LLMs and VLMs to model the human user’s long-term behavior and to predict the next human intention to guide the robot for proactive collaboration. We demonstrate smooth coordination between a LIT-based collaborative robot and the human user in collaborative cooking tasks.

arxiv情報

著者 Zhe Huang,John Pohovey,Ananya Yammanuru,Katherine Driggs-Campbell
発行日 2024-06-19 19:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク