要約
Dialogue State Tracking (DST) は音声対話システムの中核コンポーネントですが、このタスクに関する最近の研究は主にチャット コーパスを扱い、話し言葉と書き言葉の間の不一致を無視しています。この論文では、OLISIA というカスケード システムを提案します。
自動音声認識 (ASR) モデルと DST モデル。
ASR および DST モジュールにいくつかの適応を導入して、音声会話への統合と堅牢性を向上させました。これらの適応により、当社のシステムは、音声 DST を評価するベンチマークである DSTC11 Track 3 で 1 位にランクされました。
結果の詳細な分析を行ったところ、ASR 出力の正規化とデータ拡張による DST 入力の適応、および事前トレーニングされたモデルのサイズの増加がすべて、書き言葉と口頭での会話のパフォーマンスの差異を軽減する上で重要な役割を果たしていることがわかりました。
。
要約(オリジナル)
Though Dialogue State Tracking (DST) is a core component of spoken dialogue systems, recent work on this task mostly deals with chat corpora, disregarding the discrepancies between spoken and written language.In this paper, we propose OLISIA, a cascade system which integrates an Automatic Speech Recognition (ASR) model and a DST model. We introduce several adaptations in the ASR and DST modules to improve integration and robustness to spoken conversations.With these adaptations, our system ranked first in DSTC11 Track 3, a benchmark to evaluate spoken DST. We conduct an in-depth analysis of the results and find that normalizing the ASR outputs and adapting the DST inputs through data augmentation, along with increasing the pre-trained models size all play an important role in reducing the performance discrepancy between written and spoken conversations.
arxiv情報
著者 | Léo Jacqmin,Lucas Druart,Yannick Estève,Benoît Favre,Lina Maria Rojas-Barahona,Valentin Vielzeuf |
発行日 | 2023-08-31 08:51:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google