要約
この研究は、人間とロボットの対話に使用されるテキストベースの大規模言語モデル (LLM) の重大な欠点を浮き彫りにし、会話モダリティとしてのテキストだけではそのようなアプリケーションには不十分であることを示しています。
LLM は人間の会話におけるテキストの処理には優れていますが、ソーシャル ナビゲーションなどのシナリオでは、あいまいさや不確実性がロボットやその他の AI システムの信頼を損なう可能性があるため、口頭での指示のニュアンスに苦労します。
私たちは、テキストを超えて、これらの音声応答のパラ言語的特徴にさらに焦点を当てることで、この欠点に対処できます。
これらの機能は、文字通りの言葉遣い (語彙内容) を必要とせず、何かの言い方を通じて意味やニュアンスを伝える、音声コミュニケーションの側面です。
私たちは「テキストを超えて」を紹介します。
これは、音声文字起こしとこれらの機能のサブセクションを統合することで、LLM の意思決定を改善するアプローチであり、人間とロボットの会話における影響とより関連性に焦点を当てています。
このアプローチは、既存の LLM を 48.30% 上回る 70.26% の勝率を達成するだけでなく、トークン操作による敵対的攻撃に対する堅牢性も強化します。これは、テキストのみの言語モデルよりも勝率の減少率が 22.44% 少ないことによって強調されます。
「Beyond Text」は、ソーシャル ロボット ナビゲーションと人間とロボットのより広範なインタラクションの進歩を示し、テキストベースのガイダンスと人間の音声情報を活用した言語モデルをシームレスに統合します。
要約(オリジナル)
This work highlights a critical shortcoming in text-based Large Language Models (LLMs) used for human-robot interaction, demonstrating that text alone as a conversation modality falls short in such applications. While LLMs excel in processing text in these human conversations, they struggle with the nuances of verbal instructions in scenarios like social navigation, where ambiguity and uncertainty can erode trust in robotic and other AI systems. We can address this shortcoming by moving beyond text and additionally focusing on the paralinguistic features of these audio responses. These features are the aspects of spoken communication that do not involve the literal wording (lexical content) but convey meaning and nuance through how something is said. We present ‘Beyond Text’; an approach that improves LLM decision-making by integrating audio transcription along with a subsection of these features, which focus on the affect and more relevant in human-robot conversations. This approach not only achieves a 70.26% winning rate, outperforming existing LLMs by 48.30%, but also enhances robustness against token manipulation adversarial attacks, highlighted by a 22.44% less decrease ratio than the text-only language model in winning rate. ‘Beyond Text’ marks an advancement in social robot navigation and broader Human-Robot interactions, seamlessly integrating text-based guidance with human-audio-informed language models.
arxiv情報
著者 | Xingpeng Sun,Haoming Meng,Souradip Chakraborty,Amrit Singh Bedi,Aniket Bera |
発行日 | 2024-02-05 20:11:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google