Understanding Large-Language Model (LLM)-powered Human-Robot Interaction

要約

大規模言語モデル (LLM) は、人間とロボットのインタラクションを改善し、高度な会話スキルと、さまざまなタスクやドメインにおける多様で自由なユーザー要求を管理する多用途性を提供する上で、大きな期待を持っています。
人間とロボットのインタラクションを変革する可能性があるにもかかわらず、ロボットで LLM を利用するための特有の設計要件についてはほとんど知られていません。この要件は、テキストや音声のインタラクションとは異なり、タスクやコンテキストによって異なる可能性があります。
これらの要件をより深く理解するために、LLM を利用したソーシャル ロボットとテキストおよび音声ベースのエージェントを比較するユーザー調査 (n = 32) を実施し、選択、生成、実行、交渉などの会話タスクにおけるタスクベースの要件を分析しました。

私たちの調査結果は、LLMを搭載したロボットは洗練された非言語的合図への期待を高め、つながりの構築や熟考には優れているが、論理的なコミュニケーションには不十分であり、不安を引き起こす可能性があることを示しています。
当社は、LLM を統合するロボットと、ロボットで使用するための LLM の微調整の両方に対する設計上の影響を提供します。

要約(オリジナル)

Large-language models (LLMs) hold significant promise in improving human-robot interaction, offering advanced conversational skills and versatility in managing diverse, open-ended user requests in various tasks and domains. Despite the potential to transform human-robot interaction, very little is known about the distinctive design requirements for utilizing LLMs in robots, which may differ from text and voice interaction and vary by task and context. To better understand these requirements, we conducted a user study (n = 32) comparing an LLM-powered social robot against text- and voice-based agents, analyzing task-based requirements in conversational tasks, including choose, generate, execute, and negotiate. Our findings show that LLM-powered robots elevate expectations for sophisticated non-verbal cues and excel in connection-building and deliberation, but fall short in logical communication and may induce anxiety. We provide design implications both for robots integrating LLMs and for fine-tuning LLMs for use with robots.

arxiv情報

著者 Callie Y. Kim,Christine P. Lee,Bilge Mutlu
発行日 2024-01-06 13:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク