DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models

要約

大規模言語モデル (LLM) の最近の進歩により、LLM の知識と生成機能が大幅に強化され、高品質のデータ合成に LLM を活用することへの関心が高まっています。
ただし、プロンプト LLM による合成データの生成は、LLM のターゲット データ分布に対する理解が限られていることと、特に構造化フォーマット データのプロンプト エンジニアリングの複雑さのため、依然として困難です。
これらの問題に対処するために、変分オートエンコーダ (VAE) に基づく制御可能なデータ合成フレームワークである DiffLM を導入します。これは、さらに (1) 拡散モデルを活用して、元の分布と学習された潜在分布内のフォーマット構造のより多くの情報を保存し、(2) 分離します。
プラグアンドプレイの潜在特徴注入モジュールを介して、LLM の生成目標からターゲット分布の知識を学習します。
VAE の潜在表現と実際のデータ分布の間に大きな不一致が観察されたため、完全に表現力豊かな潜在分布を学習するために、潜在拡散モジュールがフレームワークに導入されました。
構造化フォーマットデータ (つまり、表形式、コード、およびツール データ) を含む 7 つの現実世界のデータセットの評価では、DiffLM が高品質のデータを生成し、ダウンストリーム タスクのパフォーマンスが特定のケースで実際のデータのパフォーマンスを 2 ~ 7% 上回ることが実証されました。
データとコードは、内部レビューが完了すると一般に公開されます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have significantly enhanced their knowledge and generative capabilities, leading to a surge of interest in leveraging LLMs for high-quality data synthesis. However, synthetic data generation via prompting LLMs remains challenging due to LLMs’ limited understanding of target data distributions and the complexity of prompt engineering, especially for structured formatted data. To address these issues, we introduce DiffLM, a controllable data synthesis framework based on variational autoencoder (VAE), which further (1) leverages diffusion models to reserve more information of original distribution and format structure in the learned latent distribution and (2) decouples the learning of target distribution knowledge from the LLM’s generative objectives via a plug-and-play latent feature injection module. As we observed significant discrepancies between the VAE’s latent representations and the real data distribution, the latent diffusion module is introduced into our framework to learn a fully expressive latent distribution. Evaluations on seven real-world datasets with structured formatted data (i.e., Tabular, Code and Tool data) demonstrate that DiffLM generates high-quality data, with performance on downstream tasks surpassing that of real data by 2-7 percent in certain cases. The data and code will be publicly available upon completion of internal review.

arxiv情報

著者 Ying Zhou,Xinyao Wang,Yulei Niu,Yaojie Shen,Lexin Tang,Fan Chen,Ben He,Le Sun,Longyin Wen
発行日 2024-11-05 16:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク