要約
大規模言語モデル (LLM) は、通常、次の単語の予測の機能として設計されており、広範な NLP タスクにわたって優れた性能を発揮します。
一般性にもかかわらず、次単語予測は多くのタスクにとって効率的な定式化ではないことが多く、極端なスケールのモデル パラメーター (数十億または数千億) が要求され、場合によっては次善のパフォーマンスが得られます。
実際には、より効率的なモデルを構築することが望ましいことがよくあります。汎用性が低いにもかかわらず、モデルは依然として問題の実質的なサブセットに適用され、はるかに小さいモデル サイズで同等またはさらに優れたパフォーマンスを実現します。
この論文では、テキストの含意、類似性、質問応答 (および回答可能性)、事実の一貫性などを含む幅広い重要なタスクのための効率的な統一モデルとしてテキスト アライメントを提案します。
テキストのペアが与えられると、モデルはそれらの情報間の一致度を測定します。
28 のデータセットからの 590 万の例を使用して、RoBERTa (3 億 5500 万のパラメーター) の軽量微調整を通じてアライメント モデル (Align) をインスタンス化します。
コンパクトなサイズにもかかわらず、広範な実験により、このモデルの効率と強力なパフォーマンスが示されています。(1) 前述のさまざまなタスクの 20 以上のデータセットにおいて、このモデルは、約 2 倍または 10 倍のパラメーターを持つ FLAN-T5 モデルと同等またはそれを上回っています。
また、単一の統合モデルは、個々のデータセットに基づいて微調整されたタスク固有のモデルよりも優れています。
(2) 23 のデータセットでの言語生成の事実の一貫性を評価するために適用すると、私たちのモデルは、はるかに大きな GPT-3.5 (ChatGPT) や場合によっては GPT-4 を含むさまざまなベースラインよりも改善されます。
(3) 軽量モデルは、質問応答タスクにおける GPT-3.5 などの LLM のアドオン コンポーネントとしても機能し、答えられない質問を特定することで平均完全一致 (EM) スコアを 17.94 向上させ、F1 スコアを 15.05 向上させます。
要約(オリジナル)
Large language models (LLMs), typically designed as a function of next-word prediction, have excelled across extensive NLP tasks. Despite the generality, next-word prediction is often not an efficient formulation for many of the tasks, demanding an extreme scale of model parameters (10s or 100s of billions) and sometimes yielding suboptimal performance. In practice, it is often desirable to build more efficient models — despite being less versatile, they still apply to a substantial subset of problems, delivering on par or even superior performance with much smaller model sizes. In this paper, we propose text alignment as an efficient unified model for a wide range of crucial tasks involving text entailment, similarity, question answering (and answerability), factual consistency, and so forth. Given a pair of texts, the model measures the degree of alignment between their information. We instantiate an alignment model (Align) through lightweight finetuning of RoBERTa (355M parameters) using 5.9M examples from 28 datasets. Despite its compact size, extensive experiments show the model’s efficiency and strong performance: (1) On over 20 datasets of aforementioned diverse tasks, the model matches or surpasses FLAN-T5 models that have around 2x or 10x more parameters; the single unified model also outperforms task-specific models finetuned on individual datasets; (2) When applied to evaluate factual consistency of language generation on 23 datasets, our model improves over various baselines, including the much larger GPT-3.5 (ChatGPT) and sometimes even GPT-4; (3) The lightweight model can also serve as an add-on component for LLMs such as GPT-3.5 in question answering tasks, improving the average exact match (EM) score by 17.94 and F1 score by 15.05 through identifying unanswerable questions.
arxiv情報
著者 | Yuheng Zha,Yichi Yang,Ruichen Li,Zhiting Hu |
発行日 | 2023-11-02 03:49:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google