Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances

要約

この論文では、大規模言語モデル (LLM) を使用した音声内の感情検出への新しいアプローチを紹介します。
私たちは、音声の特徴を自然言語の記述に変換することで、音声入力を処理する際の LLM の制限に対処します。
私たちの手法では、これらの説明をテキスト プロンプトに統合し、LLM がアーキテクチャを変更せずにマルチモーダルな感情分析を実行できるようにします。
IEMOCAP と MELD という 2 つのデータセットでアプローチを評価し、特に高品質の音声データで感情認識の精度が大幅に向上していることを実証しました。
私たちの実験によると、音声説明を組み込むと、IEMOCAP の加重 F1 スコアが 2 パーセント ポイント増加します (70.111\% から 72.596\% に)。
また、さまざまな LLM アーキテクチャを比較し、さまざまな機能表現の有効性を調査します。
私たちの調査結果は、LLM の感情検出機能を強化するこのアプローチの可能性を強調し、音声ベースの感情認識タスクにおける音声品質の重要性を強調しています。
ソースコードはGithubで公開します。

要約(オリジナル)

This paper introduces a novel approach to emotion detection in speech using Large Language Models (LLMs). We address the limitation of LLMs in processing audio inputs by translating speech characteristics into natural language descriptions. Our method integrates these descriptions into text prompts, enabling LLMs to perform multimodal emotion analysis without architectural modifications. We evaluate our approach on two datasets: IEMOCAP and MELD, demonstrating significant improvements in emotion recognition accuracy, particularly for high-quality audio data. Our experiments show that incorporating speech descriptions yields a 2 percentage point increase in weighted F1 score on IEMOCAP (from 70.111\% to 72.596\%). We also compare various LLM architectures and explore the effectiveness of different feature representations. Our findings highlight the potential of this approach in enhancing emotion detection capabilities of LLMs and underscore the importance of audio quality in speech-based emotion recognition tasks. We’ll release the source code on Github.

arxiv情報

著者 Zehui Wu,Ziwei Gong,Lin Ai,Pengyuan Shi,Kaan Donbekci,Julia Hirschberg
発行日 2024-08-01 01:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク