要約
ソーシャル ロボットは、魅力的な会話を通じて人間と長期的な絆を築くことを目指しています。
ただし、スクリプトによる対話に依存した従来の会話アプローチでは、魅力的な会話を維持するには不十分なことがよくあります。
この論文では、大規模言語モデル (LLM) をソーシャル ロボットに統合して、よりダイナミックで表現力豊かな会話を実現することで、この制限に対処します。
LLM を活用して、ロボットの個性に合った表現力豊かな動作でロボットの応答を生成する、完全に自動化された会話システムを紹介します。
私たちはロボットの動作を 2 つのモダリティで組み込みます。1) さまざまな配信スタイルが可能なテキスト読み上げ (TTS) エンジン、2) ロボットの物理的動作のライブラリです。
私たちは、ロボットの声のトーンを動的に選択し、LLM 出力からの絵文字をロボットの動作を生成するための手がかりとして利用する、カスタムの最先端の感情認識モデルを開発しました。
私たちのシステムのデモはここから入手できます。
設計と実装の問題を明らかにするために、ボランティアが提案したシステムを使用してソーシャル ロボットとチャットするパイロット調査を実施し、チャット記録の厳密なエラー分析を行ってフィードバックを分析します。
フィードバックは圧倒的に好意的で、参加者はロボットの共感性、有用性、自然さ、エンターテイメント性についてコメントしました。
否定的なフィードバックのほとんどは自動音声認識 (ASR) エラーによるもので、会話への影響は限定的でした。
しかし、LLM の繰り返しや、架空の情報や人間の応答の幻覚など、会話を脱線させる可能性のある少数のエラーが観察され、LLM の適用に重要な問題が生じました。
要約(オリジナル)
Social robots aim to establish long-term bonds with humans through engaging conversation. However, traditional conversational approaches, reliant on scripted interactions, often fall short in maintaining engaging conversations. This paper addresses this limitation by integrating large language models (LLMs) into social robots to achieve more dynamic and expressive conversations. We introduce a fully-automated conversation system that leverages LLMs to generate robot responses with expressive behaviors, congruent with the robot’s personality. We incorporate robot behavior with two modalities: 1) a text-to-speech (TTS) engine capable of various delivery styles, and 2) a library of physical actions for the robot. We develop a custom, state-of-the-art emotion recognition model to dynamically select the robot’s tone of voice and utilize emojis from LLM output as cues for generating robot actions. A demo of our system is available here. To illuminate design and implementation issues, we conduct a pilot study where volunteers chat with a social robot using our proposed system, and we analyze their feedback, conducting a rigorous error analysis of chat transcripts. Feedback was overwhelmingly positive, with participants commenting on the robot’s empathy, helpfulness, naturalness, and entertainment. Most negative feedback was due to automatic speech recognition (ASR) errors which had limited impact on conversations. However, we observed a small class of errors, such as the LLM repeating itself or hallucinating fictitious information and human responses, that have the potential to derail conversations, raising important issues for LLM application.
arxiv情報
著者 | Zining Wang,Paul Reisert,Eric Nichols,Randy Gomez |
発行日 | 2024-02-18 12:35:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google