TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning

要約

モデルのカスタマイズには、高品質で多様なデータセットが必要ですが、そのようなデータの取得は依然として挑戦的で費用がかかります。
大規模な言語モデル(LLM)はトレーニングデータを合成できますが、現在のアプローチは、限られた種子データ、モデルバイアス、および生成プロセスの不十分な制御によって制約され、データスケールの増加に伴う多様性が限られています。
この課題に取り組むために、データ統合の包括的かつ多様なスケーリングを可能にするデータ空間全体をHierar-Chicalサブスペースに再帰的に分割するツリーガイド下の部分空間ベースのデータ合成フレームワークであるThreasynthを提示します。
簡単に言えば、タスク固有の説明を考慮して、基準の決定と部分空間のカバレッジ手順を繰り返し実行することにより、データ空間分割ツリーを構築します。
これにより、空間全体(すなわち、ルートノード)を相互に排他的で補完的な原子サブスペース(つまり、リーフノード)に階層的に分割します。
各リーフノードの属性に従って合成データを収集することにより、データ空間を完全にカバーする多様なデータセットを取得します。
経験的に、私たちの広範な実験は、Treeynthが人間が設計したデータセットと最先端のデータ合成ベースラインの両方を上回り、データの多様性が45.2%、さまざまなモデルやタスクにわたってダウンストリームタスクパフォ​​ーマンスで17.6%の最大改善を達成することを示しています。
うまくいけば、Threasynthは、人間の介入なしに、多様で包括的なデータセットをゼロから合成するためのスケーラブルなソリューションを提供することを願っています。

要約(オリジナル)

Model customization requires high-quality and diverse datasets, but acquiring such data remains challenging and costly. Although large language models (LLMs) can synthesize training data, current approaches are constrained by limited seed data, model bias and insufficient control over the generation process, resulting in limited diversity and biased distribution with the increase of data scales. To tackle this challenge, we present TreeSynth, a tree-guided subspace-based data synthesis framework that recursively partitions the entire data space into hierar-chical subspaces, enabling comprehensive and diverse scaling of data synthesis. Briefly, given a task-specific description, we construct a data space partitioning tree by iteratively executing criteria determination and subspace coverage steps. This hierarchically divides the whole space (i.e., root node) into mutually exclusive and complementary atomic subspaces (i.e., leaf nodes). By collecting synthesized data according to the attributes of each leaf node, we obtain a diverse dataset that fully covers the data space. Empirically, our extensive experiments demonstrate that TreeSynth surpasses both human-designed datasets and the state-of-the-art data synthesis baselines, achieving maximum improvements of 45.2% in data diversity and 17.6% in downstream task performance across various models and tasks. Hopefully, TreeSynth provides a scalable solution to synthesize diverse and comprehensive datasets from scratch without human intervention.

arxiv情報

著者 Sheng Wang,Pengan Chen,Jingqi Zhou,Qintong Li,Jingwei Dong,Jiahui Gao,Boyang Xue,Jiyue Jiang,Lingpeng Kong,Chuan Wu
発行日 2025-03-21 14:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク