要約
大規模言語モデル (LLM) は、チャット、推論、質問応答などのタスクにおいて優れた能力を実証しています。
ただし、標準的な LLM は、感情、感情、話し方などの重要なパラ言語情報を無視する場合があります。これらの情報は、特にそのような情報が音響キューによって伝達される場合、自然で人間のような会話を実現するために不可欠です。
したがって、我々は、テキストと音声モダリティを利用して、音声対話の言語内容とパラ言語属性をより適切にモデル化する LLM である、パラ言語強化生成事前学習トランスフォーマー (ParalinGPT) を提案します。
このモデルは、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを、シリアル化されたマルチタスク マルチモーダル フレームワーク内の入力プロンプトとして受け取ります。
具体的には、私たちのフレームワークは、現在のパラ言語属性の予測、応答のパラ言語属性の予測、自己回帰条件付きの応答テキストの生成の順序でタスクをシリアル化します。
私たちは、パラ言語属性として感情ラベルを含む Switchboard-1 コーパスを音声対話データセットとして利用します。
実験結果は、提案されたシリアル化されたマルチタスク手法が、現在および応答センチメント分類において典型的なシーケンス分類手法よりも優れていることを示しています。
さらに、会話のコンテキストと音声の埋め込みを活用することで、応答テキストの生成と感情予測の両方が大幅に向上します。
私たちが提案したフレームワークは、現在の感情の精度、応答の感情の精度、応答テキストの BLEU スコアにおいて、それぞれ 6.7%、12.0%、3.5% の相対的な改善を達成しました。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated superior abilities in tasks such as chatting, reasoning, and question-answering. However, standard LLMs may ignore crucial paralinguistic information, such as sentiment, emotion, and speaking style, which are essential for achieving natural, human-like spoken conversation, especially when such information is conveyed by acoustic cues. We therefore propose Paralinguistics-enhanced Generative Pretrained Transformer (ParalinGPT), an LLM that utilizes text and speech modalities to better model the linguistic content and paralinguistic attributes of spoken dialogue. The model takes the conversational context of text, speech embeddings, and paralinguistic attributes as input prompts within a serialized multitasking multimodal framework. Specifically, our framework serializes tasks in the order of current paralinguistic attribute prediction, response paralinguistic attribute prediction, and response text generation with autoregressive conditioning. We utilize the Switchboard-1 corpus, including its sentiment labels as the paralinguistic attribute, as our spoken dialogue dataset. Experimental results indicate the proposed serialized multitasking method outperforms typical sequence classification techniques on current and response sentiment classification. Furthermore, leveraging conversational context and speech embeddings significantly improves both response text generation and sentiment prediction. Our proposed framework achieves relative improvements of 6.7%, 12.0%, and 3.5% in current sentiment accuracy, response sentiment accuracy, and response text BLEU score, respectively.
arxiv情報
著者 | Guan-Ting Lin,Prashanth Gurunath Shivakumar,Ankur Gandhe,Chao-Han Huck Yang,Yile Gu,Shalini Ghosh,Andreas Stolcke,Hung-yi Lee,Ivan Bulyko |
発行日 | 2024-01-17 17:07:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google