OLISIA: a Cascade System for Spoken Dialogue State Tracking




– 対話状態追跡(DST)は、話し言葉システムの中核的なコンポーネントであるが、最近の研究は主にテキストのコーパスに焦点を当てており、話し言葉と書き言葉の相違を無視している。
– 本論文では、自動音声認識(ASR)モデルとDSTモデルを統合したカスケードシステムであるOLISIAを提案する。
– ASRとDSTモジュールにいくつかの適応を導入し、話し言葉への統合と頑健性を改善する。
– これらの適応により、システムは話し言葉DSTの評価基準であるDSTC11トラック3で第一位を獲得した。
– 詳細な結果の分析を行い、ASR出力の正規化、データ拡張によるDST入力の適応、事前学習モデルのサイズの拡大が、書き言葉と話し言葉のパフォーマンスの相違を減らす上で重要な役割を果たしていることを発見した。


Though Dialogue State Tracking (DST) is a core component of spoken dialogue systems, recent work on this task mostly deals with chat corpora, disregarding the discrepancies between spoken and written language.In this paper, we propose OLISIA, a cascade system which integrates an Automatic Speech Recognition (ASR) model and a DST model. We introduce several adaptations in the ASR and DST modules to improve integration and robustness to spoken conversations.With these adaptations, our system ranked first in DSTC11 Track 3, a benchmark to evaluate spoken DST. We conduct an in-depth analysis of the results and find that normalizing the ASR outputs and adapting the DST inputs through data augmentation, along with increasing the pre-trained models size all play an important role in reducing the performance discrepancy between written and spoken conversations.


著者 Léo Jacqmin,Lucas Druart,Valentin Vielzeuf,Lina Maria Rojas-Barahona,Yannick Estève,Benoît Favre
発行日 2023-04-20 09:30:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク