要約
合成データ生成を通じてトレーニング データの多様性を強化することにより、ゼロショット対話状態追跡 (DST) における大幅なパフォーマンスの向上を実証します。
既存の DST データセットは、データ収集コストが高いため、カバーするアプリケーション ドメインとスロット タイプの数が大幅に制限されており、新しいドメインへの適応性が制限されています。
この取り組みでは、合成ゼロショット DST データセットを作成する、新しい完全自動データ生成アプローチでこの課題に対処しています。
以前の方法とは異なり、私たちのアプローチは、シルバースタンダードのダイアログ状態の注釈とスロットの説明を備えた、広範なアプリケーション ドメインにわたるダイアログを生成できます。
この手法は、前例のない 1,000 以上のドメインを網羅するゼロショット DST モデルをトレーニングするための D0T データセットを作成するために使用されます。
MultiWOZ ベンチマークの実験では、多様な合成データでモデルをトレーニングすると、共同目標の精度が 6.7% 向上し、我々のモデルより 13.5 倍の規模のモデルと競合する結果が得られることがわかりました。
要約(オリジナル)
We demonstrate substantial performance gains in zero-shot dialogue state tracking (DST) by enhancing training data diversity through synthetic data generation. Existing DST datasets are severely limited in the number of application domains and slot types they cover due to the high costs of data collection, restricting their adaptability to new domains. This work addresses this challenge with a novel, fully automatic data generation approach that creates synthetic zero-shot DST datasets. Distinguished from previous methods, our approach can generate dialogues across a massive range of application domains, complete with silver-standard dialogue state annotations and slot descriptions. This technique is used to create the D0T dataset for training zero-shot DST models, encompassing an unprecedented 1,000+ domains. Experiments on the MultiWOZ benchmark show that training models on diverse synthetic data improves Joint Goal Accuracy by 6.7%, achieving results competitive with models 13.5 times larger than ours.
arxiv情報
著者 | James D. Finch,Jinho D. Choi |
発行日 | 2024-06-13 17:32:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google