Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction

要約

大規模言語モデル (LLM) には、合成データ生成の大きな可能性があります。
この研究は、LLM によって直接解決できないタスクであっても、有用なデータを合成的に生成できることを示しています。構造化された出力の問題の場合、妥当な入力テキストを生成することで、LLM に逆方向のタスクの実行を促すことが可能です。
ターゲットの出力構造。
タスクの難易度におけるこの非対称性を利用することで、複雑なタスクに対して大規模で高品質なデータを生成することが可能になります。
我々は、グラウンドトゥルースデータの収集が困難であり、これまで満足のいくデータセットが存在しない非公開情報抽出におけるこのアプローチの有効性を実証します。
私たちは 1.8M データポイントのデータセットを合成的に生成し、人間による評価で既存のデータセットと比較してその優れた品質を確立し、それを使用して SynthIE と呼ばれる小型モデル (220M および 770M パラメータ) を微調整します。
モデル サイズが等しい場合)、マイクロ F1 では 57 絶対ポイント、マクロ F1 では 79 ポイントという大幅なマージンがあります。
コード、データ、モデルは https://github.com/epfl-dlab/SynthIE で入手できます。

要約(オリジナル)

Large language models (LLMs) have great potential for synthetic data generation. This work shows that useful data can be synthetically generated even for tasks that cannot be solved directly by LLMs: for problems with structured outputs, it is possible to prompt an LLM to perform the task in the reverse direction, by generating plausible input text for a target output structure. Leveraging this asymmetry in task difficulty makes it possible to produce large-scale, high-quality data for complex tasks. We demonstrate the effectiveness of this approach on closed information extraction, where collecting ground-truth data is challenging, and no satisfactory dataset exists to date. We synthetically generate a dataset of 1.8M data points, establish its superior quality compared to existing datasets in a human evaluation, and use it to finetune small models (220M and 770M parameters), termed SynthIE, that outperform the prior state of the art (with equal model size) by a substantial margin of 57 absolute points in micro-F1 and 79 points in macro-F1. Code, data, and models are available at https://github.com/epfl-dlab/SynthIE.

arxiv情報

著者 Martin Josifoski,Marija Sakota,Maxime Peyrard,Robert West
発行日 2023-10-29 14:24:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク