要約
大規模言語モデル (LLM) の命令学習により、ゼロショット タスクの一般化が可能になりました。
ただし、命令学習は主に微調整の問題としてアプローチされてきました。これには、命令の調整や人間のフィードバックからの強化学習が含まれます。LLM は、命令を使用してさまざまなタスクで微調整されるマルチタスクです。
このホワイト ペーパーでは、In-Context Instruction Learning (ICIL) と呼ばれる In-Context Learning を命令学習に適用すると、事前トレーニング済みモデルと命令微調整モデルの両方で、ゼロ ショット タスクの汎化パフォーマンスが大幅に向上するという驚くべき発見を提示します。
.
ICIL の主な利点の 1 つは、単一の固定プロンプトを使用してすべてのタスクを評価することです。これは、クロスタスク デモンストレーションの連結です。
特に、最も強力な命令微調整ベースライン (text-davinci-003) も ICIL から 9.3% の恩恵を受けることを示しており、ICIL の効果が命令ベースの微調整を補完するものであることを示しています。
要約(オリジナル)
Instruction learning of Large Language Models (LLMs) has enabled zero-shot task generalization. However, instruction learning has been predominantly approached as a fine-tuning problem, including instruction tuning and reinforcement learning from human feedback, where LLMs are multi-task fine-tuned on various tasks with instructions. In this paper, we present a surprising finding that applying in-context learning to instruction learning, referred to as In-Context Instruction Learning (ICIL), significantly improves the zero-shot task generalization performance for both pretrained and instruction-fine-tuned models. One of the core advantages of ICIL is that it uses a single fixed prompt to evaluate all tasks, which is a concatenation of cross-task demonstrations. In particular, we demonstrate that the most powerful instruction-fine-tuned baseline (text-davinci-003) also benefits from ICIL by 9.3%, indicating that the effect of ICIL is complementary to instruction-based fine-tuning.
arxiv情報
著者 | Seonghyeon Ye,Hyeonbin Hwang,Sohee Yang,Hyeongu Yun,Yireun Kim,Minjoon Seo |
発行日 | 2023-02-28 16:06:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google