Enabling Large Language Models to Learn from Rules

要約

大規模言語モデル (LLM) は、現実世界のさまざまなタスクを完了する際に驚異的なパフォーマンスを示しています。
LLM の現在の知識学習パラダイムは主に例からの学習に基づいており、LLM は一定数の教師付き例から内部ルールを暗黙的に学習します。
ただし、この学習パラダイムは、特にトレーニング例が限られている場合、これらの複雑なルールをうまく学習できない可能性があります。
私たちは、人間はルールから学ぶことで、別の方法で新しいタスクや知識を学ぶことができるということにインスピレーションを得ています。
つまり、人間は、詳細なルールといくつかのオプションの例だけがあれば、新しいタスクを学習したり、新しい知識を迅速に把握したり、一般化することができます。
したがって、この論文では、ルールベースの知識を LLM にエンコードすることをターゲットとした、この新しい学習パラダイムの実現可能性を探ることを目的としています。
さらに、ルール蒸留を提案します。これは、最初に LLM の強力なインコンテキスト機能を使用してテキスト ルールから知識を抽出し、次にモデル内で生成された上記のインコンテキスト信号から学習することによって、その知識を LLM のパラメーターに明示的にエンコードします。

私たちの実験では、私たちの方法で LLM にルールから学習させる方が、サンプル サイズと一般化能力の両方において、例ベースの学習よりもはるかに効率的であることが示されました。
警告: この文書には不快な内容を含む例が含まれている可能性があります。

要約(オリジナル)

Large language models (LLMs) have shown incredible performance in completing various real-world tasks. The current knowledge learning paradigm of LLMs is mainly based on learning from examples, in which LLMs learn the internal rule implicitly from a certain number of supervised examples. However, this learning paradigm may not well learn those complicated rules, especially when the training examples are limited. We are inspired that humans can learn the new tasks or knowledge in another way by learning from rules. That is, humans can learn new tasks or grasps new knowledge quickly and generalize well given only a detailed rule and a few optional examples. Therefore, in this paper, we aim to explore the feasibility of this new learning paradigm, which targets on encoding rule-based knowledge into LLMs. We further propose rule distillation, which first uses the strong in-context abilities of LLMs to extract the knowledge from the textual rules, and then explicitly encode the knowledge into the parameters of LLMs by learning from the above in-context signals produced inside the model. Our experiments show that making LLMs learn from rules by our method is much more efficient than example-based learning in both the sample size and generalization ability. Warning: This paper may contain examples with offensive content.

arxiv情報

著者 Wenkai Yang,Yankai Lin,Jie Zhou,Jirong Wen
発行日 2024-02-16 14:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク