Supervised Knowledge Makes Large Language Models Better In-context Learners

要約

大規模言語モデル (LLM) は、迅速なエンジニアリングを通じて新たなコンテキスト内学習能力を示します。
大規模な生成モデルの最近の進歩により、実世界の言語アプリケーションでの使用がさらに拡大しています。
しかし、自然言語理解と質問応答における LLM の一般化可能性と事実性を向上させるという重要な課題は、依然として十分に検討されていません。
これまでのコンテキスト内学習の研究は、ユーザー固有の指示や期待品質に準拠し、望ましくない出力を回避するためにモデルを強化することに焦点を当ててきましたが、タスク固有の微調整された言語モデル (SLM) の使用を検討した研究はほとんど、あるいはまったくありませんでした。
推論段階での LLM のコンテキスト内学習を改善します。
私たちの主な貢献は、LLM の信頼性を高めるシンプルかつ効果的なフレームワークの確立です。1) 分布外データを一般化し、2) LLM が識別モデルからどのように恩恵を受けるかを解明し、3) 生成タスクにおける幻覚を最小限に抑えます。
私たちが提案したプラグイン方式を使用すると、Llama 2 と ChatGPT の拡張バージョンは、一般化性と事実性の点で元のバージョンを上回ります。
当社は、9 つ​​の異なるタスクにわたる 16 の厳選されたデータセット、プロンプト、モデル チェックポイント、LLM 出力を含む、包括的なリソース スイートを提供します。
私たちの実証分析は、識別モデルを LLM に組み込む利点を明らかにし、より信頼性の高い LLM を育成する上での私たちの方法論の可能性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) exhibit emerging in-context learning abilities through prompt engineering. The recent progress in large-scale generative models has further expanded their use in real-world language applications. However, the critical challenge of improving the generalizability and factuality of LLMs in natural language understanding and question answering remains under-explored. While previous in-context learning research has focused on enhancing models to adhere to users’ specific instructions and quality expectations, and to avoid undesired outputs, little to no work has explored the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs’ in-context learning during the inference stage. Our primary contribution is the establishment of a simple yet effective framework that enhances the reliability of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs benefit from discriminative models, and 3) minimizes hallucinations in generative tasks. Using our proposed plug-in method, enhanced versions of Llama 2 and ChatGPT surpass their original versions regarding generalizability and factuality. We offer a comprehensive suite of resources, including 16 curated datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks. Our empirical analysis sheds light on the advantages of incorporating discriminative models into LLMs and highlights the potential of our methodology in fostering more reliable LLMs.

arxiv情報

著者 Linyi Yang,Shuibai Zhang,Zhuohao Yu,Guangsheng Bao,Yidong Wang,Jindong Wang,Ruochen Xu,Wei Ye,Xing Xie,Weizhu Chen,Yue Zhang
発行日 2023-12-26 07:24:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク