要約
大規模言語モデル (LLM) で強化されたエージェントは、人間と AI のコミュニケーションにおいてますます普及しており、エンターテイメントから専門分野まで大きな可能性をもたらしています。
しかし、現在のマルチモーダル対話システムは、人間のコミュニケーションのニュアンスを理解するために重要な、音声に存在する音響情報を見落としています。
この見落としは、話者の意図の誤解につながり、その結果、対話内で一貫性のない、あるいは矛盾した応答が生じる可能性があります。
このギャップを埋めるために、この論文では、音声モダリティ知覚の統合を通じて、単語の文字通りの解釈を超えて、より深いまたはより微妙な意味を識別するように設計された共感的なマルチモーダル対話システムである PerceptiveAgent を提案します。
PerceptiveAgent は、認知コアとして LLM を採用し、入力音声から音響情報を認識し、自然言語で記述された話し方に基づいて共感的な応答を生成します。
実験結果によると、PerceptiveAgent は、言語的意味が話者の本当の感情に反する、または矛盾するシナリオにおいて話者の真の意図を正確に識別することで、文脈の理解に優れ、より微妙で表現力豊かな音声対話を生成することが示されています。
コードは \url{https://github.com/Haoqiu-Yan/PerceptiveAgent} で公開されています。
要約(オリジナル)
Large Language Model (LLM)-enhanced agents become increasingly prevalent in Human-AI communication, offering vast potential from entertainment to professional domains. However, current multi-modal dialogue systems overlook the acoustic information present in speech, which is crucial for understanding human communication nuances. This oversight can lead to misinterpretations of speakers’ intentions, resulting in inconsistent or even contradictory responses within dialogues. To bridge this gap, in this paper, we propose PerceptiveAgent, an empathetic multi-modal dialogue system designed to discern deeper or more subtle meanings beyond the literal interpretations of words through the integration of speech modality perception. Employing LLMs as a cognitive core, PerceptiveAgent perceives acoustic information from input speech and generates empathetic responses based on speaking styles described in natural language. Experimental results indicate that PerceptiveAgent excels in contextual understanding by accurately discerning the speakers’ true intentions in scenarios where the linguistic meaning is either contrary to or inconsistent with the speaker’s true feelings, producing more nuanced and expressive spoken dialogues. Code is publicly available at: \url{https://github.com/Haoqiu-Yan/PerceptiveAgent}.
arxiv情報
著者 | Haoqiu Yan,Yongxin Zhu,Kai Zheng,Bing Liu,Haoyu Cao,Deqiang Jiang,Linli Xu |
発行日 | 2024-06-18 15:19:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google