UL2: Unifying Language Learning Paradigms

要約

既存の事前トレーニング済みモデルは、通常、特定のクラスの問題を対象としています。
今日まで、適切なアーキテクチャとトレーニング前のセットアップがどうあるべきかについて、まだコンセンサスが得られていないようです。
このホワイト ペーパーでは、データセットとセットアップ全体で普遍的に効果的な事前トレーニング モデルの統合フレームワークを紹介します。
まず、アーキテクチャのアーキタイプとトレーニング前の目的 (一般的に混同されている 2 つの概念) を切り離すことから始めます。
次に、NLP における自己監督の一般化および統一された視点を提示し、さまざまなトレーニング前の目的を互いにどのようにキャストできるか、およびさまざまな目的間の補間がどのように効果的であるかを示します。
次に、さまざまな事前トレーニング パラダイムを組み合わせた事前トレーニング目標である Mixture-of-Denoisers (MoD) を提案します。
さらに、ダウンストリームの微調整が特定の事前トレーニングスキームに関連付けられているモード切り替えの概念を導入します。
複数の事前トレーニング目標を比較するために大規模な除去実験を実施し、複数の多様な設定で T5 および GPT のようなモデルよりも優れたパフォーマンスを発揮することで、この方法がパレート フロンティアを押し進めることを発見しました。
モデルを最大 200 億のパラメーターにスケーリングすることで、50 の確立された教師あり微調整ベースの NLP タスクで SOTA パフォーマンスを達成します。
私たちのモデルは、インコンテキスト学習でも強力な結果を達成し、ゼロショット SuperGLUE で 175B GPT-3 を上回り、ワンショット要約で T5-XXL のパフォーマンスを 3 倍にします。
0 ショット MMLU では、UL2 20B が T0 および T5 モデルよりも優れています。
UL2 20B は、チェーン オブ ソート プロンプトおよび推論でもうまく機能し、小規模から中規模の 20B パラメータでの推論の研究に魅力的な選択肢となっています。
最後に、UL2 20B モデルに FLAN 命令チューニングを適用し、FLAN-PaLM 62B に匹敵する MMLU および Big-Bench スコアを達成しました。
UL2 20B および Flan-UL2 20B 用の Flax ベースの T5X チェックポイントをリリースします。

要約(オリジナル)

Existing pre-trained models are generally geared towards a particular class of problems. To date, there seems to be still no consensus on what the right architecture and pre-training setup should be. This paper presents a unified framework for pre-training models that are universally effective across datasets and setups. We begin by disentangling architectural archetypes with pre-training objectives — two concepts that are commonly conflated. Next, we present a generalized & unified perspective for self-supervision in NLP and show how different pre-training objectives can be cast as one another and how interpolating between different objectives can be effective. We then propose Mixture-of-Denoisers (MoD), a pre-training objective that combines diverse pre-training paradigms together. We furthermore introduce a notion of mode switching, wherein downstream fine-tuning is associated with specific pre-training schemes. We conduct extensive ablative experiments to compare multiple pre-training objectives and find that our method pushes the Pareto-frontier by outperforming T5 & GPT-like models across multiple diverse setups. By scaling our model up to 20B parameters, we achieve SOTA performance on 50 well-established supervised finetuning based NLP tasks. Our model also achieve strong results at in-context learning, outperforming 175B GPT-3 on zero-shot SuperGLUE and tripling the performance of T5-XXL on one-shot summarization. On 0-shot MMLU, UL2 20B outperforms T0 and T5 models. UL2 20B also works well with chain-of-thought prompting and reasoning, making it an appealing choice for research into reasoning at a small to medium scale of 20B parameters. Finally, we apply FLAN instruction tuning to the UL2 20B model, achieving MMLU and Big-Bench scores competitive to FLAN-PaLM 62B. We release Flax-based T5X checkpoints for the UL2 20B & Flan-UL2 20B.

arxiv情報

著者 Yi Tay,Mostafa Dehghani,Vinh Q. Tran,Xavier Garcia,Jason Wei,Xuezhi Wang,Hyung Won Chung,Siamak Shakeri,Dara Bahri,Tal Schuster,Huaixiu Steven Zheng,Denny Zhou,Neil Houlsby,Donald Metzler
発行日 2023-02-28 17:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク