Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing

要約

私たちは、言い換えや文の要約のための新しいフレームワークである Impossible Distillation を紹介します。これは、それ自体ではこれらのタスクを実行できない低品質の教師から高品質のデータセットとモデルを抽出します。
極端なスケールの教師モデル (例: GPT3) やタスク固有のアーキテクチャに依存する以前の研究とは異なり、事前に訓練された LM (例: GPT2) に固有の言い換えの近接性を仮説および検証します。
LM配布。
Impossible Distillation は、これらの部分空間から世代を特定して蒸留することにより、GPT2 スケールの LM からでも高品質のデータセットとモデルを生成します。
私たちは、制約のない/構文制御された言い換え生成と文の要約にわたる複数のベンチマークでメソッドを評価します。
7 億 7,000 万のパラメーターを備えたモデルは、ChatGPT から抽出されたモデルや、場合によっては ChatGPT 自体を含む強力なベースラインを常に上回っています。
また、15 億個の LM から抽出されたデータセットは、最大 13 倍大きいデータセットよりも高い多様性と忠実度を示していることがわかりました。

要約(オリジナル)

We present Impossible Distillation, a novel framework for paraphrasing and sentence summarization, that distills a high-quality dataset and model from a low-quality teacher that itself cannot perform these tasks. Unlike prior works that rely on an extreme-scale teacher model (e.g., GPT3) or task-specific architecture, we hypothesize and verify the paraphrastic proximity intrinsic to pre-trained LMs (e.g., GPT2), where paraphrases occupy a proximal subspace in the LM distribution. By identifying and distilling generations from these subspaces, Impossible Distillation produces a high-quality dataset and model even from GPT2-scale LMs. We evaluate our method on multiple benchmarks spanning unconstrained / syntax-controlled paraphrase generation and sentence summarization. Our model with 770M parameters consistently outperforms strong baselines, including models distilled from ChatGPT, and sometimes, even ChatGPT itself. Also, we find that our distilled dataset from 1.5B LMs exhibits higher diversity and fidelity than up to 13 times larger datasets.

arxiv情報

著者 Jaehun Jung,Peter West,Liwei Jiang,Faeze Brahman,Ximing Lu,Jillian Fisher,Taylor Sorensen,Yejin Choi
発行日 2024-03-19 16:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク