要約
最近の生成 AI の急増は、拡散確率モデルの生成力と大規模言語モデルのスケーラブルな機能によって促進されています。
その可能性にもかかわらず、拡散言語モデルが自己回帰モデルと同等の一般的な言語タスクを解決できるかどうかは依然としてわかりません。
この論文は、拡散モデルをスケーリングすることを実証します。
データ、サイズ、タスクによって、効果的に言語学習を強力に進めることができます。
私たちは、まずマスクされた言語モデリングの事前トレーニングを介して大量のデータから知識を取得し、それらの固有の接続により、有能な普及言語モデルを大規模に構築します。
次に、事前トレーニングされたマスクされた言語モデルを、拡散適応を介して拡散言語モデルに再プログラムします。そこでは、タスク固有の微調整と命令の微調整が検討され、一般的な言語タスクを解決する際の多用途性が解き放たれます。
実験では、拡散言語モデルをスケーリングすると、下流の言語タスク全体のパフォーマンスが一貫して向上することが示されています。
さらに、命令の微調整により、自然言語の命令に従って多くの目に見えないタスクに取り組むのに役立つ、ゼロショットおよび少数ショットのコンテキスト内学習能力を引き出すことができ、推論などの高度で挑戦的な能力が期待できることも発見しました。
要約(オリジナル)
The recent surge of generative AI has been fueled by the generative power of diffusion probabilistic models and the scalable capabilities of large language models. Despite their potential, it remains elusive whether diffusion language models can solve general language tasks comparable to their autoregressive counterparts. This paper demonstrates that scaling diffusion models w.r.t. data, sizes, and tasks can effectively make them strong language learners. We build competent diffusion language models at scale by first acquiring knowledge from massive data via masked language modeling pretraining thanks to their intrinsic connections. We then reprogram pretrained masked language models into diffusion language models via diffusive adaptation, wherein task-specific finetuning and instruction finetuning are explored to unlock their versatility in solving general language tasks. Experiments show that scaling diffusion language models consistently improves performance across downstream language tasks. We further discover that instruction finetuning can elicit zero-shot and few-shot in-context learning abilities that help tackle many unseen tasks by following natural language instructions, and show promise in advanced and challenging abilities such as reasoning.
arxiv情報
著者 | Jiasheng Ye,Zaixiang Zheng,Yu Bao,Lihua Qian,Quanquan Gu |
発行日 | 2023-08-25 16:32:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google