DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩により、知識と生成能力が大幅に向上し、高品質のデータ合成のためにLLMを活用することに関心が高まっています。
ただし、特に構造化されたフォーマットデータのために、LLMSがターゲットデータ分布の限られた理解と迅速なエンジニアリングの複雑さのために、LLMSをプロンプトすることによる合成データ生成は依然として困難です。
これらの問題に対処するために、変分自動エンコーダー(VAE)に基づいた制御可能なデータ合成フレームワークであるDifflMを紹介します。これは、(1)拡散モデルをレバレッジして、学習した潜在分布の元の分布と形式構造のより多くの情報を予約し、(2)プラグアンドプレイの特徴的なインジェクションモデュールを介したLLMのジェネレーティブな客観からのターゲット分布知識の学習を隔離します。
VAEの潜在表現と実際のデータ分布との間に有意な矛盾が観察されたため、潜在的な拡散モジュールがフレームワークに導入され、完全に表現力のある潜在的な分布が学習されます。
構造化されたフォーマットデータ(つまり、表形式、コード、およびツールデータ)を使用した7つの実際のデータセットの評価は、DIFFLMが高品質のデータを生成し、ダウンストリームタスクのパフォーマンスを特定のケースで実際のデータのパフォーマンスを上回ることを示しています。
データとコードはhttps://github.com/bytedance/difflmで入手できます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have significantly enhanced their knowledge and generative capabilities, leading to a surge of interest in leveraging LLMs for high-quality data synthesis. However, synthetic data generation via prompting LLMs remains challenging due to LLMs’ limited understanding of target data distributions and the complexity of prompt engineering, especially for structured formatted data. To address these issues, we introduce DiffLM, a controllable data synthesis framework based on variational autoencoder (VAE), which further (1) leverages diffusion models to reserve more information of original distribution and format structure in the learned latent distribution and (2) decouples the learning of target distribution knowledge from the LLM’s generative objectives via a plug-and-play latent feature injection module. As we observed significant discrepancies between the VAE’s latent representations and the real data distribution, the latent diffusion module is introduced into our framework to learn a fully expressive latent distribution. Evaluations on seven real-world datasets with structured formatted data (i.e., Tabular, Code, and Tool data) demonstrate that DiffLM generates high-quality data, with performance on downstream tasks surpassing that of real data by 2%-7% in certain cases. Data and code are available at https://github.com/bytedance/DiffLM.

arxiv情報

著者 Ying Zhou,Xinyao Wang,Yulei Niu,Yaojie Shen,Lexin Tang,Fan Chen,Ben He,Le Sun,Longyin Wen
発行日 2025-06-10 16:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク