Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners

要約

微調整よりも大きな利点があるインコンテキスト学習は、主にデコーダのみのモデルで観察されますが、エンコーダ-デコーダ (つまり seq2seq) モデルは重み更新に依存する方法で優れています。
最近、いくつかの研究で、seq2seq モデルを使用した少数ショット学習の実現可能性が実証されました。
ただし、これは、要約や翻訳など、seq2seq アーキテクチャによく適合するタスクに限定されています。
これらの初期研究に触発されて、私たちは、広範囲のタスクについて、デコーダーのみのモデルとエンコーダー-デコーダー モデルのコンテキスト内の少数ショット学習能力を比較する、初めての大規模な実験を提供します。
さらに、seq2seq モデルでコンテキスト内の学習能力をより効果的に引き出す 2 つの方法、目的に合わせたプロンプティングと融合ベースのアプローチを提案します。
驚くべきことに、私たちのアプローチは 6 倍大きいデコーダのみのモデルよりも優れており、さまざまな設定にわたって従来の seq2seq モデルと比較して大幅なパフォーマンスの向上を示しています。
私たちは、適切な構成と迅速な設計により、seq2seq モデルは幅広いアプリケーションに対して非常に効果的な少数ショット学習器となる可能性があると考えています。

要約(オリジナル)

In-context learning, which offers substantial advantages over fine-tuning, is predominantly observed in decoder-only models, while encoder-decoder (i.e., seq2seq) models excel in methods that rely on weight updates. Recently, a few studies have demonstrated the feasibility of few-shot learning with seq2seq models; however, this has been limited to tasks that align well with the seq2seq architecture, such as summarization and translation. Inspired by these initial studies, we provide a first-ever extensive experiment comparing the in-context few-shot learning capabilities of decoder-only and encoder-decoder models on a broad range of tasks. Furthermore, we propose two methods to more effectively elicit in-context learning ability in seq2seq models: objective-aligned prompting and a fusion-based approach. Remarkably, our approach outperforms a decoder-only model that is six times larger and exhibits significant performance improvements compared to conventional seq2seq models across a variety of settings. We posit that, with the right configuration and prompt design, seq2seq models can be highly effective few-shot learners for a wide spectrum of applications.

arxiv情報

著者 Jihyeon Lee,Dain Kim,Doohae Jung,Boseop Kim,Kyoung-Woon On
発行日 2023-07-27 13:37:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク