Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction

要約

大規模言語モデル (LLM) は、合成データ生成の大きな可能性を示しています。
この研究は、LLM で直接解決できないタスクに対しても有用なデータを総合的に生成できることを示しています。構造化された出力の問題については、LLM にタスクを反対方向に実行するように促すことが可能であることを示しています。
ターゲット構造のもっともらしいテキスト。
タスクの難易度の非対称性を利用すると、複雑なタスクに対して大規模で高品質なデータを生成できます。
グラウンド トゥルース データの収集が困難であり、現在まで満足のいくデータセットが存在しない、クローズドな情報抽出に対するこのアプローチの有効性を実証します。
180 万のデータ ポイントのデータセットを合成的に生成し、人間による評価で既存のデータセットと比較してその優れた品質を実証し、それを使用して小さなモデル (2 億 2000 万および 7 億 7000 万のパラメーター) を微調整します。
私たちが紹介するモデル SynthIE は、同等のサイズの既存のベースラインよりも優れており、ミクロ F1 とマクロ F1 でそれぞれ 57 絶対ポイントと 79 絶対ポイントの実質的なギャップがあります。
コード、データ、およびモデルは、https://github.com/epfl-dlab/SynthIE で入手できます。

要約(オリジナル)

Large language models (LLMs) show great potential for synthetic data generation. This work shows that useful data can be synthetically generated even for tasks that cannot be solved directly by the LLM: we show that, for problems with structured outputs, it is possible to prompt an LLM to perform the task in the opposite direction, to generate plausible text for the target structure. Leveraging the asymmetry in task difficulty makes it possible to produce large-scale, high-quality data for complex tasks. We demonstrate the effectiveness of this approach on closed information extraction, where collecting ground-truth data is challenging, and no satisfactory dataset exists to date. We synthetically generate a dataset of 1.8M data points, demonstrate its superior quality compared to existing datasets in a human evaluation and use it to finetune small models (220M and 770M parameters). The models we introduce, SynthIE, outperform existing baselines of comparable size with a substantial gap of 57 and 79 absolute points in micro and macro F1, respectively. Code, data, and models are available at https://github.com/epfl-dlab/SynthIE.

arxiv情報

著者 Martin Josifoski,Marija Sakota,Maxime Peyrard,Robert West
発行日 2023-03-07 18:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク