要約
ドメイン固有のダイアログデータセットの希少性により、アプリケーション全体のダイアログシステムの開発が制限されます。
既存の研究は、対話システムのトレーニングに十分な規模を欠いている一般的またはニッチデータセットによって制約されています。
このギャップに対処するために、DiaSynthを紹介します。これは、幅広いドメインで高品質で文脈的に豊富な対話を生成できる合成対話生成フレームワークです。
既存のフレームワークとは異なり、DiaSynthは大規模な言語モデル(LLMS)とChainの思考(COT)の推論を使用して、シミュレートされたペルソナと多様な会話機能を備えた動的なドメイン固有の対話を生成します。
DialogsumとSamsumのさまざまなLLMと少数のショットの例を使用して合成データを生成することにより、実験を実行します。
合成データで微調整された前提条件の言語モデルは、対話の要約でベースモデルを16.47%上回っていますが、ドメイン内データと合成データで微調整されたモデルの比較は、合成データが90.48%の90.48%をキャプチャできることを示しています。
ダイアログの要約に関するドメイン内データのパフォーマンス分布。
生成されたデータの品質は、LLMのサイズが3Bから8Bに増加するにつれて増加します。
これらの結果は、従来のデータ収集方法の堅牢な代替手段として、Diasynthの可能性を検証します。
将来の研究のために生成されたコードとデータをオープンします。
要約(オリジナル)
The scarcity of domain-specific dialogue datasets limits the development of dialogue systems across applications. Existing research is constrained by general or niche datasets that lack sufficient scale for training dialogue systems. To address this gap, we introduce DiaSynth – a synthetic dialogue generation framework capable of generating high-quality, contextually rich dialogues across a wide range of domains. Unlike existing frameworks, DiaSynth uses Large Language Models (LLMs) and Chain of Thought (CoT) reasoning to generate dynamic, domain-specific dialogues with simulated personas and diverse conversational features. We perform our experiments by generating synthetic data using different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained language models fine-tuned on the synthetic data outperform the base models by 16.47% on dialogue summarization, while the comparison between models fine-tuned on in-domain data and synthetic data shows that the synthetic data is able to capture 90.48% of the performance distribution of the in-domain data on dialogue summarization. The quality of the data generated also increases as we increase the size of LLM from 3B to 8B. These results validate DiaSynth’s potential as a robust alternative to traditional data collection methods. We open source the code and data generated for future research.
arxiv情報
著者 | Sathya Krishnan Suresh,Wu Mengjun,Tushar Pranav,Eng Siong Chng |
発行日 | 2025-02-10 16:42:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google