Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation

要約

デコーダーのみの大型言語モデル(LLMS)は印象的な結果を示していますが、エンコーダーデコーダーモデルは、推論効率とより豊富なエンコーダー表現のために、実際のアプリケーションで依然として広く採用されています。
このホワイトペーパーでは、新しい問題をエンコーダデコーダーに適応させるという新しい問題を研究します。両方のアプローチの強みを活用して、より好ましい品質効率のトレードオフを達成することを目標としています。
適応は、デコーダーのみのLLMSの能力を継承するだけでなく、ゼロからの事前販売と比較して計算需要を減らすことを可能にすると主張します。
さまざまな事前トレーニングの目的とパラメーターの初期化/最適化手法を厳密に調査します。
Gemma 2(2Bおよび9B)に基づいた広範な実験と、新しく前提条件のMT5サイズのモデルのスイート(最大1.6b)を通じて、適応の有効性とエンコーダーデコダーLLMの利点を示します。
同様の推論予算では、エンコーダデコーダーLLMは、デコーダーのみの対応物よりも同等の(多くの場合より良い)前脱出パフォーマンスを実現します。
たとえば、Gemma 2B-2Bは、指示チューニング後にGemma 2Bを$ \ SIM $ 7 \%よりも優れています。
エンコーダーデコーダーの適応により、さまざまなサイズのモデルの柔軟な組み合わせが可能になり、Gemma 9B-2BはGemma 2B-2Bを$ 3 \%額で大幅に上回ります。
適応されたエンコーダー表現は、スーパーグルーでより良い結果をもたらします。
将来の研究を容易にするために、チェックポイントをリリースします。

要約(オリジナル)

While decoder-only large language models (LLMs) have shown impressive results, encoder-decoder models are still widely adopted in real-world applications for their inference efficiency and richer encoder representation. In this paper, we study a novel problem: adapting pretrained decoder-only LLMs to encoder-decoder, with the goal of leveraging the strengths of both approaches to achieve a more favorable quality-efficiency trade-off. We argue that adaptation not only enables inheriting the capability of decoder-only LLMs but also reduces the demand for computation compared to pretraining from scratch. We rigorously explore different pretraining objectives and parameter initialization/optimization techniques. Through extensive experiments based on Gemma 2 (2B and 9B) and a suite of newly pretrained mT5-sized models (up to 1.6B), we demonstrate the effectiveness of adaptation and the advantage of encoder-decoder LLMs. Under similar inference budget, encoder-decoder LLMs achieve comparable (often better) pretraining performance but substantially better finetuning performance than their decoder-only counterpart. For example, Gemma 2B-2B outperforms Gemma 2B by $\sim$7\% after instruction tuning. Encoder-decoder adaptation also allows for flexible combination of different-sized models, where Gemma 9B-2B significantly surpasses Gemma 2B-2B by $>$3\%. The adapted encoder representation also yields better results on SuperGLUE. We will release our checkpoints to facilitate future research.

arxiv情報

著者 Biao Zhang,Fedor Moiseev,Joshua Ainslie,Paul Suganthan,Min Ma,Surya Bhupatiraju,Fede Lebron,Orhan Firat,Armand Joulin,Zhe Dong
発行日 2025-04-08 17:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク