Are LLMs Robust for Spoken Dialogues?

要約

大規模な事前学習済み言語モデルは、対話状態の追跡やエンドツーエンドの応答生成など、様々な下流タスクにおいて最先端の性能を実証してきた。とはいえ、タスク指向対話に関する一般に利用可能なデータセットやベンチマークのほとんどは、文書による会話を対象としている。そのため、開発されたモデルの音声対話に対する頑健性は未知数である。本研究では、DSTC11テストセットを用いて、タスク指向の音声対話に対するLLMの性能を評価した。適切な音声対話データセットがないため、我々は最新のASRエンジンを用いて自動的に音声対話の開発セットを書き起こした。我々は、ASRエラーの種類とその分布を特徴付け、大規模な対話データセットにおいてこれらのエラーをシミュレートした。応答生成と対話状態追跡の2つのサブタスクにおいて、微調整したGPT-2とT5モデルの内発的性能(パープレキシティ)と外発的性能(人間による評価)をそれぞれ報告する。その結果、LLMはデフォルトでは話し言葉ノイズに頑健ではないが、話し言葉TODの適切なデータセットを用いてモデルを微調整/訓練することで、より頑健な性能が得られることが示された。

要約(オリジナル)

Large Pre-Trained Language Models have demonstrated state-of-the-art performance in different downstream tasks, including dialogue state tracking and end-to-end response generation. Nevertheless, most of the publicly available datasets and benchmarks on task-oriented dialogues focus on written conversations. Consequently, the robustness of the developed models to spoken interactions is unknown. In this work, we have evaluated the performance of LLMs for spoken task-oriented dialogues on the DSTC11 test sets. Due to the lack of proper spoken dialogue datasets, we have automatically transcribed a development set of spoken dialogues with a state-of-the-art ASR engine. We have characterized the ASR-error types and their distributions and simulated these errors in a large dataset of dialogues. We report the intrinsic (perplexity) and extrinsic (human evaluation) performance of fine-tuned GPT-2 and T5 models in two subtasks of response generation and dialogue state tracking, respectively. The results show that LLMs are not robust to spoken noise by default, however, fine-tuning/training such models on a proper dataset of spoken TODs can result in a more robust performance.

arxiv情報

著者 Seyed Mahed Mousavi,Gabriel Roccabruna,Simone Alghisi,Massimo Rizzoli,Mirco Ravanelli,Giuseppe Riccardi
発行日 2024-01-04 14:36:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク