Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances

要約

音声における感情認識は、言葉の内容と音声のニュアンスの両方を理解する必要がある、困難なマルチモーダルなタスクです。
この論文では、自然言語理解において優れた能力を実証した大規模言語モデル (LLM) を使用した、感情検出への新しいアプローチを紹介します。
音声入力の処理における LLM の固有の制限を克服するために、音声特性を自然言語記述に変換する方法である SpeechCueLLM を提案します。これにより、アーキテクチャを変更することなく、LLM がテキスト プロンプトを介してマルチモーダルな感情分析を実行できるようになります。
私たちの手法は最小限でありながら影響力があり、構造変更を必要とするベースライン モデルよりも優れたパフォーマンスを発揮します。
IEMOCAP と MELD の 2 つのデータセットで SpeechCueLLM を評価し、特に高品質の音声データで感情認識の精度が大幅に向上していることがわかりました。
また、さまざまな LLM のさまざまな特徴表現と微調整戦略の有効性も調査します。
私たちの実験では、音声説明を組み込むと、IEMOCAP の平均加重 F1 スコアが 2% 以上増加する (70.111% から 72.596% へ) ことが実証されました。

要約(オリジナル)

Emotion recognition in speech is a challenging multimodal task that requires understanding both verbal content and vocal nuances. This paper introduces a novel approach to emotion detection using Large Language Models (LLMs), which have demonstrated exceptional capabilities in natural language understanding. To overcome the inherent limitation of LLMs in processing audio inputs, we propose SpeechCueLLM, a method that translates speech characteristics into natural language descriptions, allowing LLMs to perform multimodal emotion analysis via text prompts without any architectural changes. Our method is minimal yet impactful, outperforming baseline models that require structural modifications. We evaluate SpeechCueLLM on two datasets: IEMOCAP and MELD, showing significant improvements in emotion recognition accuracy, particularly for high-quality audio data. We also explore the effectiveness of various feature representations and fine-tuning strategies for different LLMs. Our experiments demonstrate that incorporating speech descriptions yields a more than 2% increase in the average weighted F1 score on IEMOCAP (from 70.111% to 72.596%).

arxiv情報

著者 Zehui Wu,Ziwei Gong,Lin Ai,Pengyuan Shi,Kaan Donbekci,Julia Hirschberg
発行日 2024-12-23 12:35:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク