LUCY: Linguistic Understanding and Control Yielding Early Stage of Her

要約

彼女の映画は、人間の発話において言語的および麻痺性情報の両方を理解し、自然で有益であり、感情的な微妙さに敏感なリアルタイムの反応を伝えることができる洗練されたAIオーディオエージェントであるサマンサを特徴としています。
エンドツーエンド(E2E)音声システムの最近の進歩からより洗練されたオーディオエージェントに向けて1つのステップを移動すると、(1)ユーザーの感情に感知して応答するE2E音声モデルであるルーシーを提案します。
自然なスタイル、および(3)外部ツールを使用してリアルタイムの問い合わせに答えます。
実験結果は、ルーシーがピアモデルよりも感情制御が優れており、言語的感情的な指示に基づいて感情的な反応を生み出し、麻痺性の感情的な手がかりに反応することを示しています。
ルーシーはまた、外部言語モデルで判断されるように、一般的な質問に多くのパフォーマンスを犠牲にすることなく、より自然なスタイルで応答を生成することができます。
最後に、ルーシーは関数呼び出しを活用して、知識の範囲外の質問に答えることができます。

要約(オリジナル)

The film Her features Samantha, a sophisticated AI audio agent who is capable of understanding both linguistic and paralinguistic information in human speech and delivering real-time responses that are natural, informative and sensitive to emotional subtleties. Moving one step toward more sophisticated audio agent from recent advancement in end-to-end (E2E) speech systems, we propose LUCY, a E2E speech model that (1) senses and responds to user’s emotion, (2) deliver responses in a succinct and natural style, and (3) use external tool to answer real-time inquiries. Experiment results show that LUCY is better at emotion control than peer models, generating emotional responses based on linguistic emotional instructions and responding to paralinguistic emotional cues. Lucy is also able to generate responses in a more natural style, as judged by external language models, without sacrificing much performance on general question answering. Finally, LUCY can leverage function calls to answer questions that are out of its knowledge scope.

arxiv情報

著者 Heting Gao,Hang Shao,Xiong Wang,Chaofan Qiu,Yunhang Shen,Siqi Cai,Yuchen Shi,Zihan Xu,Zuwei Long,Yike Zhang,Shaoqi Dong,Chaoyou Fu,Ke Li,Long Ma,Xing Sun
発行日 2025-01-27 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク