Scaling Synthetic Data Creation with 1,000,000,000 Personas

要約

私たちは、大規模言語モデル (LLM) 内のさまざまな視点を活用して多様な合成データを作成する、新しいペルソナ駆動型のデータ合成方法論を提案します。
この方法論を大規模に最大限に活用するために、Web データから自動的にキュレーションされた 10 億の多様なペルソナのコレクションであるペルソナ ハブを導入します。
これら 10 億人のペルソナ (世界総人口の約 13%) は、世界の知識の分散伝達者として機能し、LLM 内にカプセル化されたほぼすべての視点を利用することができ、それにより、さまざまなシナリオ向けに大規模な多様な合成データの作成が容易になります。
高品質の数学的および論理的推論の問題、指示 (つまり、ユーザー プロンプト)、知識豊富なテキスト、ゲーム NPC およびツール (関数) を大規模に合成するペルソナ ハブの使用例を紹介することで、ペルソナ主導のデータ合成が多用途であることを実証します。
スケーラブルで柔軟性があり、使いやすいため、実際の合成データの作成とアプリケーションにおけるパラダイムシフトを潜在的に促進し、LLM の研究開発に大きな影響を与える可能性があります。

要約(オリジナル)

We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub — a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world’s total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub’s use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.

arxiv情報

著者 Xin Chan,Xiaoyang Wang,Dian Yu,Haitao Mi,Dong Yu
発行日 2024-06-28 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク