要約
大規模言語モデル (LLM) は、機械翻訳 (MT) を含む自然言語処理タスクで顕著なパフォーマンスを示しています。
この研究では、音声感情認識 (SER) モデルから抽出された感情情報を LLM に統合して翻訳品質を向上させる、新しい MT パイプラインを提案します。
まず、Libri-trans データセット上の 5 つの既存の LLM を微調整し、最もパフォーマンスの高いモデルを選択します。
続いて、LLM プロンプトをさまざまな次元の感情で強化し、選択した LLM をこれらのさまざまな構成でトレーニングします。
私たちの実験では、感情情報、特に覚醒を LLM プロンプトに統合すると、翻訳品質の顕著な向上につながることが明らかになりました。
要約(オリジナル)
Large Language Models (LLMs) have shown remarkable performance in Natural Language Processing tasks, including Machine Translation (MT). In this work, we propose a novel MT pipeline that integrates emotion information extracted from a Speech Emotion Recognition (SER) model into LLMs to enhance translation quality. We first fine-tune five existing LLMs on the Libri-trans dataset and select the most performant model. Subsequently, we augment LLM prompts with different dimensional emotions and train the selected LLM under these different configurations. Our experiments reveal that integrating emotion information, especially arousal, into LLM prompts leads to notable improvements in translation quality.
arxiv情報
著者 | Charles Brazier,Jean-Luc Rouas |
発行日 | 2024-08-06 12:49:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google