Measuring Diversity in Synthetic Datasets

要約

大規模な言語モデル(LLM)は、テキスト分類や要約など、さまざまな自然言語処理(NLP)タスクの合成データセットを生成するために広く採用されています。
ただし、これらの合成データセットの多様性を正確に測定します。これは、堅牢なモデルパフォーマンスのために重要な側面であり、重要な課題です。
この論文では、分類の観点から合成データセットの多様性を測定するための新しい方法であるDCScoreを紹介します。
具体的には、DCSCOREはサンプル分類タスクとして多様性評価を定式化し、サンプル間の相互関係を活用します。
さらに、DCScoreによって満たされた多様性関連の公理の理論的検証を提供し、原則的な多様性評価方法としての役割を強調します。
合成データセットでの実験結果は、DCScoreが評価されたデータセットの複数の多様性の疑似真実とより強い相関を享受し、その有効性を強調することを明らかにしています。
さらに、経験的証拠と理論的証拠の両方が、DCScoreが既存のアプローチと比較して計算コストを大幅に削減することを示しています。
コードは、https://github.com/bluewhalelab/dcscoreで入手できます。

要約(オリジナル)

Large language models (LLMs) are widely adopted to generate synthetic datasets for various natural language processing (NLP) tasks, such as text classification and summarization. However, accurately measuring the diversity of these synthetic datasets-an aspect crucial for robust model performance-remains a significant challenge. In this paper, we introduce DCScore, a novel method for measuring synthetic dataset diversity from a classification perspective. Specifically, DCScore formulates diversity evaluation as a sample classification task, leveraging mutual relationships among samples. We further provide theoretical verification of the diversity-related axioms satisfied by DCScore, highlighting its role as a principled diversity evaluation method. Experimental results on synthetic datasets reveal that DCScore enjoys a stronger correlation with multiple diversity pseudo-truths of evaluated datasets, underscoring its effectiveness. Moreover, both empirical and theoretical evidence demonstrate that DCScore substantially reduces computational costs compared to existing approaches. Code is available at: https://github.com/BlueWhaleLab/DCScore.

arxiv情報

著者 Yuchang Zhu,Huizhe Zhang,Bingzhe Wu,Jintang Li,Zibin Zheng,Peilin Zhao,Liang Chen,Yatao Bian
発行日 2025-02-12 15:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク