Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task

要約

人間の意図に基づくシステムにより、ロボットはユーザーの行動を認識して解釈し、人間と対話し、その行動に積極的に適応できるようになります。
したがって、意図予測は、人間が設計した環境でソーシャル ロボットとの自然なインタラクションを生み出す上で極めて重要です。
この論文では、物理的なロボットとの協調的なオブジェクト分類タスクにおいて人間の意図を推測するために大規模言語モデル (LLM) を使用する方法を検討します。
私たちは、手のジェスチャー、体のポーズ、顔の表情などのユーザーの非言語的手がかりを、環境状態およびユーザーの言語的手がかりと統合して、階層アーキテクチャでユーザーの意図を予測する、新しいマルチモーダルなアプローチを提案します。
5 つの LLM に対する私たちの評価は、ソーシャル ロボットとタスクで協力しながら意図予測をサポートするために、言語的および非言語的なユーザーの合図について推論する可能性を示しています。

要約(オリジナル)

Human intention-based systems enable robots to perceive and interpret user actions to interact with humans and adapt to their behavior proactively. Therefore, intention prediction is pivotal in creating a natural interaction with social robots in human-designed environments. In this paper, we examine using Large Language Models (LLMs) to infer human intention in a collaborative object categorization task with a physical robot. We propose a novel multimodal approach that integrates user non-verbal cues, like hand gestures, body poses, and facial expressions, with environment states and user verbal cues to predict user intentions in a hierarchical architecture. Our evaluation of five LLMs shows the potential for reasoning about verbal and non-verbal user cues, leveraging their context-understanding and real-world knowledge to support intention prediction while collaborating on a task with a social robot.

arxiv情報

著者 Hassan Ali,Philipp Allgeuer,Stefan Wermter
発行日 2024-09-27 10:05:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO, I.2.7 パーマリンク