要約
迅速なエンジニアリングを使用して音声感情を注釈と認識して、最近、大規模な言語モデル(LLM)の進歩により出現しましたが、その有効性と信頼性は疑わしいままです。
この論文では、音響、言語学、心理学から感情固有の知識を取り入れた新しいプロンプトの提案から始めて、このトピックに関する体系的な研究を実施します。
その後、自動音声認識(ASR)転写に対するLLMベースのプロンプトの有効性を調べ、グラウンドトゥルース転写とは対照的です。
さらに、ASRエラーを備えた音声言語からの堅牢なLLMベースの感情認識のためのパイプラインのパイプラインの改訂を認識することを提案します。
さらに、コンテキスト認識学習、コンテキスト内学習、および指導チューニングに関する実験が実行され、LLMトレーニングスキームの有用性がこの方向にあることを調べます。
最後に、LLMSの感度をマイナーな迅速な変動に調査します。
実験結果は、LLMベースの感情認識のための感情固有のプロンプト、ASRエラー補正、LLMトレーニングスキームの有効性を示しています。
私たちの研究の目的は、感情認識と関連ドメインでのLLMの使用を改良することです。
要約(オリジナル)
Annotating and recognizing speech emotion using prompt engineering has recently emerged with the advancement of Large Language Models (LLMs), yet its efficacy and reliability remain questionable. In this paper, we conduct a systematic study on this topic, beginning with the proposal of novel prompts that incorporate emotion-specific knowledge from acoustics, linguistics, and psychology. Subsequently, we examine the effectiveness of LLM-based prompting on Automatic Speech Recognition (ASR) transcription, contrasting it with ground-truth transcription. Furthermore, we propose a Revise-Reason-Recognize prompting pipeline for robust LLM-based emotion recognition from spoken language with ASR errors. Additionally, experiments on context-aware learning, in-context learning, and instruction tuning are performed to examine the usefulness of LLM training schemes in this direction. Finally, we investigate the sensitivity of LLMs to minor prompt variations. Experimental results demonstrate the efficacy of the emotion-specific prompts, ASR error correction, and LLM training schemes for LLM-based emotion recognition. Our study aims to refine the use of LLMs in emotion recognition and related domains.
arxiv情報
著者 | Yuanchao Li,Yuan Gong,Chao-Han Huck Yang,Peter Bell,Catherine Lai |
発行日 | 2025-04-30 13:26:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google