要約
この論文では、自然言語処理における著名なオープンソースの基礎モデルである LLaMA に焦点を当てた、大規模言語モデル (LLM) の詳細な分析について説明します。
LLaMA をその生成出力を通じて評価する代わりに、推論や計算などの高次のタスクにおける本質的な理解を調べるために多肢選択タスクを設計します。
モデルを水平方向に調べてさまざまなサイズを比較し、垂直方向に調べてさまざまなレイヤーを評価します。
設計された調査タスクに基づいて、いくつかの重要かつ珍しい発見を明らかにします。 (1) 水平方向に、モデル サイズを拡大しても、追加の知識や計算能力を自動的に付与することはほとんどできません。
代わりに、特に数学の問題解決における推論能力を強化し、幻覚を減らすのに役立ちますが、それは特定のサイズのしきい値を超えた場合に限られます。
(2) 垂直分析では、LLaMA の下層には実質的な算術知識や事実知識が欠けており、論理的思考、多言語能力、認識能力を発揮しますが、最上層にはほとんどの計算能力と現実世界の知識が格納されています。
要約(オリジナル)
This paper presents an in-depth analysis of Large Language Models (LLMs), focusing on LLaMA, a prominent open-source foundational model in natural language processing. Instead of assessing LLaMA through its generative output, we design multiple-choice tasks to probe its intrinsic understanding in high-order tasks such as reasoning and computation. We examine the model horizontally, comparing different sizes, and vertically, assessing different layers. We unveil several key and uncommon findings based on the designed probing tasks: (1) Horizontally, enlarging model sizes almost could not automatically impart additional knowledge or computational prowess. Instead, it can enhance reasoning abilities, especially in math problem solving, and helps reduce hallucinations, but only beyond certain size thresholds; (2) In vertical analysis, the lower layers of LLaMA lack substantial arithmetic and factual knowledge, showcasing logical thinking, multilingual and recognitive abilities, with top layers housing most computational power and real-world knowledge.
arxiv情報
著者 | Nuo Chen,Ning Wu,Shining Liang,Ming Gong,Linjun Shou,Dongmei Zhang,Jia Li |
発行日 | 2024-01-09 07:33:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google