要約
大規模言語モデル (LLM) は、いくつかのラベル付きトレーニング サンプルをテキストベースのプロンプトとして条件付けすることで、コンテキスト内学習 (ICL) を可能にし、パラメーターの更新の必要性を排除し、競争力のあるパフォーマンスを実現します。
この論文では、LLM で学習された固有の知識、コンテキスト内で選択された例から得られる事実の知識、出力生成のための LLM の知識バイアスという 3 つの中核的な側面で、ICL のパフォーマンスには事実の知識が不可欠であることを示します。
数回の学習シナリオで LLM の力を解き放つために、ICL のパフォーマンスをさらに向上させる新しい Knowledgeable In-Context Tuning (KICT) フレームワークを導入します。1) 継続的な自己教師付き事前トレーニング中に LLM に知識を注入します。2)
) 知識との関連性が高い ICL の例を慎重に選択し、3) 事前知識に基づいて予測結果を調整します。
複数のテキスト分類タスクと質問応答タスクにわたって、自己回帰モデル (GPT スタイル LLM など) で提案されたアプローチを評価します。
実験結果は、KICT が強力なベースラインを大幅に上回り、テキスト分類タスクと質問応答タスクでそれぞれ 13% と 7% 以上向上することを示しています。
要約(オリジナル)
Large language models (LLMs) enable in-context learning (ICL) by conditioning on a few labeled training examples as a text-based prompt, eliminating the need for parameter updates and achieving competitive performance. In this paper, we demonstrate that factual knowledge is imperative for the performance of ICL in three core facets: the inherent knowledge learned in LLMs, the factual knowledge derived from the selected in-context examples, and the knowledge biases in LLMs for output generation. To unleash the power of LLMs in few-shot learning scenarios, we introduce a novel Knowledgeable In-Context Tuning (KICT) framework to further improve the performance of ICL: 1) injecting knowledge into LLMs during continual self-supervised pre-training, 2) judiciously selecting the examples for ICL with high knowledge relevance, and 3) calibrating the prediction results based on prior knowledge. We evaluate the proposed approaches on autoregressive models (e.g., GPT-style LLMs) over multiple text classification and question-answering tasks. Experimental results demonstrate that KICT substantially outperforms strong baselines and improves by more than 13% and 7% on text classification and question-answering tasks, respectively.
arxiv情報
著者 | Jianing Wang,Chengyu Wang,Chuanqi Tan,Jun Huang,Ming Gao |
発行日 | 2024-03-31 13:55:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google