Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking

要約

対話状態の追跡は、タスク指向の対話システムにおいて情報を抽出する上で重要な役割を果たす。しかし、先行研究はテキストモダリティに限定されており、その主な理由は、本物の人間の音声データセットが不足しているためである。我々は、音声ベースのDSTのための合成音声データを調査することにより、この問題に対処する。そのために、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットで学習させ、実際の人間の音声データでテストする。音声モダリティに合わせた評価を容易にするため、発音の類似性を捉える新しいPhonemeF1を導入する。実験の結果、合成データセットのみで学習したモデルは、人間の音声データに対してその性能を一般化できることが示された。人間の音声データ収集への依存を排除することで、これらの洞察は、音声ベースのDSTにおける実用的な重要な進歩への道を開く。データとコードはhttps://github.com/JihyunLee1/E2E-DST。

要約(オリジナル)

Dialogue state tracking plays a crucial role in extracting information in task-oriented dialogue systems. However, preceding research are limited to textual modalities, primarily due to the shortage of authentic human audio datasets. We address this by investigating synthetic audio data for audio-based DST. To this end, we develop cascading and end-to-end models, train them with our synthetic audio dataset, and test them on actual human speech data. To facilitate evaluation tailored to audio modalities, we introduce a novel PhonemeF1 to capture pronunciation similarity. Experimental results showed that models trained solely on synthetic datasets can generalize their performance to human voice data. By eliminating the dependency on human speech data collection, these insights pave the way for significant practical advancements in audio-based DST. Data and code are available at https://github.com/JihyunLee1/E2E-DST.

arxiv情報

著者 Jihyun Lee,Yejin Jeon,Wonjun Lee,Yunsu Kim,Gary Geunbae Lee
発行日 2023-12-04 12:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク