Neural Machine Translation Models Can Learn to be Few-shot Learners

要約

少数の例を使用して、新しいドメインやタスクでの実行方法を学習する大規模言語モデルの新たな機能。インコンテキスト学習 (ICL) とも呼ばれます。
この研究では、ニューラル機械翻訳のドメイン適応タスクを例として、特殊なトレーニング目標に向けて微調整することで、はるかに小さなモデルが ICL を実行するようにトレーニングできることを示します。
ICL のこの能力により、モデルは関連する少数のショットの例を利用して、その出力をドメインに適応させることができます。
このドメイン適応の品質を、従来の教師あり手法および 40B パラメーターの大規模言語モデルを使用した ICL と比較します。
私たちのアプローチは、ドメインの混合で効率的なバッチ推論を可能にし、翻訳品質と即時適応率、つまり単一の例を示された後に特定の用語を再現する能力の両方の点で最先端のベースラインを上回ります。

要約(オリジナル)

The emergent ability of Large Language Models to use a small number of examples to learn to perform in novel domains and tasks, also called in-context learning (ICL). In this work, we show that a much smaller model can be trained to perform ICL by fine-tuning towards a specialized training objective, exemplified on the task of domain adaptation for neural machine translation. With this capacity for ICL, the model can take advantage of relevant few-shot examples to adapt its output towards the domain. We compare the quality of this domain adaptation to traditional supervised techniques and ICL with a 40B-parameter Large Language Model. Our approach allows efficient batch inference on a mix of domains and outperforms state-of-the-art baselines in terms of both translation quality and immediate adaptation rate, i.e. the ability to reproduce a specific term after being shown a single example.

arxiv情報

著者 Raphael Reinauer,Patrick Simianer,Kaden Uhlig,Johannes E. M. Mosig,Joern Wuebker
発行日 2023-09-15 17:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク