Decoding Knowledge in Large Language Models: A Framework for Categorization and Comprehension

要約

大規模言語モデル(LLM)がどのように知識を獲得し、保持し、適用するかを理解することは、依然として未解決の課題である。本稿では、LLMの知識を「正しさ」と「確信度」の2つの次元で分類する新しいフレームワークK-(CSA)^2を紹介する。このフレームワークは、確信度の高い正しさから確信度の高い誤認識まで、6つの知識カテゴリーを定義し、二元的な精度を超えたモデル理解のニュアンス評価を可能にする。このフレームワークを用いて、思考連鎖プロンプトや人間のフィードバックによる強化学習のような技術が、LLMの内部知識(事前学習済み)と外部知識(文脈依存)の知識構造をどのように根本的に変化させるかを実証する。CoTは特に基本モデルの性能を向上させ、整列されたLLMに適用した場合に相乗的な利点を示す。さらに、我々のレイヤー別分析により、LLMの高レイヤーほど信頼度の高い知識がエンコードされ、低信頼度の知識は中低レイヤーに出現する傾向があることが明らかになった。

要約(オリジナル)

Understanding how large language models (LLMs) acquire, retain, and apply knowledge remains an open challenge. This paper introduces a novel framework, K-(CSA)^2, which categorizes LLM knowledge along two dimensions: correctness and confidence. The framework defines six categories of knowledge, ranging from highly confident correctness to confidently held misconceptions, enabling a nuanced evaluation of model comprehension beyond binary accuracy. Using this framework, we demonstrate how techniques like chain-of-thought prompting and reinforcement learning with human feedback fundamentally alter the knowledge structures of internal (pre-trained) and external (context-dependent) knowledge in LLMs. CoT particularly enhances base model performance and shows synergistic benefits when applied to aligned LLMs. Moreover, our layer-wise analysis reveals that higher layers in LLMs encode more high-confidence knowledge, while low-confidence knowledge tends to emerge in middle-to-lower layers.

arxiv情報

著者 Yanbo Fang,Ruixiang Tang
発行日 2025-01-02 16:34:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク