要約
大規模言語モデル (LLM) は、その優れたコンテキスト内学習 (ICL) 機能によって NLP を変革しました。
LLM に基づく自動アシスタントの人気が高まっています。
ただし、それらを新しいタスクに適応させるのは依然として困難です。
巨大なモデルはゼロショットのパフォーマンスに優れていますが、その計算要求により広範な使用が制限されており、より小さな言語モデルはコンテキストがないと困難を伴います。
この論文では、LLM が事前定義されたタスクのラベル付きの例から新しいタスクに一般化できるかどうかを調査します。
生物学的ニューロンと Transformer アーキテクチャの機構的解釈からインスピレーションを得て、タスク間での情報共有の可能性を探ります。
3 つの LLM を使用してクロスタスク プロンプト設定を設計し、コンテキスト内にターゲット タスクの例がないにもかかわらず、LLM が大幅なパフォーマンスの向上を達成することを示します。
クロスタスク プロンプトは、ゼロショット プロンプトと比較して平均で LLaMA-2 7B で 107%、LLaMA-2 13B で 18.6%、GPT 3.5 で 3.2% という顕著なパフォーマンス向上をもたらし、標準的なインコンテキスト学習と同等のパフォーマンスを実現します。
。
タスク内サンプルの疑似ラベルを生成する有効性が実証され、分析により、クロスタスクサンプルの効果と、ソースおよびターゲット入力トークンにおけるモデル活性化の類似性との間に強い相関関係があることが明らかになりました。
この論文では、さまざまなタスク例からのコンテキスト信号に基づいて新しいタスクを解決する LLM の能力について、この種では初めての調査を提供します。
要約(オリジナル)
Large Language Models (LLMs) have transformed NLP with their remarkable In-context Learning (ICL) capabilities. Automated assistants based on LLMs are gaining popularity; however, adapting them to novel tasks is still challenging. While colossal models excel in zero-shot performance, their computational demands limit widespread use, and smaller language models struggle without context. This paper investigates whether LLMs can generalize from labeled examples of predefined tasks to novel tasks. Drawing inspiration from biological neurons and the mechanistic interpretation of the Transformer architecture, we explore the potential for information sharing across tasks. We design a cross-task prompting setup with three LLMs and show that LLMs achieve significant performance improvements despite no examples from the target task in the context. Cross-task prompting leads to a remarkable performance boost of 107% for LLaMA-2 7B, 18.6% for LLaMA-2 13B, and 3.2% for GPT 3.5 on average over zero-shot prompting, and performs comparable to standard in-context learning. The effectiveness of generating pseudo-labels for in-task examples is demonstrated, and our analyses reveal a strong correlation between the effect of cross-task examples and model activation similarities in source and target input tokens. This paper offers a first-of-its-kind exploration of LLMs’ ability to solve novel tasks based on contextual signals from different task examples.
arxiv情報
著者 | Anwoy Chatterjee,Eshaan Tanwar,Subhabrata Dutta,Tanmoy Chakraborty |
発行日 | 2024-05-20 06:35:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google