要約
大規模言語モデル (LLM) は高度な機能を備えていますが、トレーニングと推論の両方に大量の計算リソースを必要とします。
LLM ファミリ内では、より小規模なモデル (パラメータが 100 億未満のモデル) もさまざまなタスクにわたって良好にパフォーマンスします。
ただし、これらの小型モデルには、幻覚傾向など、大型モデルと同様の制限があります。
LLM の幻覚を評価するためのベンチマークは数多く存在しますが、小規模 LLM (SLLM) に特に焦点を当てたベンチマークはほとんどありません。
さらに、SLLM は、さまざまなベンチマーク間で大きく異なるパフォーマンスを示します。
この論文では、文脈影響スコア (CI) と呼ばれる特定の指標を備えた多層構造のフレームワークである OnionEval を紹介します。これは、さまざまな文脈レベルにわたる小規模 LLM の事実に矛盾する幻覚傾向を効果的に評価するように設計されています。
私たちの実験結果から、SLLM の重要な特徴が明らかになりました。SLLM は事実分析には優れていますが、コンテキスト推論では課題に直面しています。
さらなる調査により、単純な思考連鎖戦略によりこれらの制限が大幅に軽減され、現実世界のアプリケーションにおける SLLM の実際的な有用性が向上することがわかりました。
要約(オリジナル)
Large Language Models (LLMs) are highly capable but require significant computational resources for both training and inference. Within the LLM family, smaller models (those with fewer than 10 billion parameters) also perform well across various tasks. However, these smaller models share similar limitations to their larger counterparts, including the tendency to hallucinate. Despite the existence of many benchmarks to evaluate hallucination in LLMs, few have specifically focused on small LLMs (SLLMs). Additionally, SLLMs show widely varying performance across different benchmarks. In this paper, we introduce OnionEval, a multi-layer structured framework with a specific metric called the context-influence score (CI), designed to effectively assess the fact-conflicting hallucination tendencies of small LLMs across different contextual levels. Our experimental results reveal a key feature of SLLMs: they excel in factual analysis but face challenges with context reasoning. Further investigation shows that a simple Chain-of-Thought strategy can significantly reduce these limitations, improving the practical usefulness of SLLMs in real-world applications.
arxiv情報
著者 | Chongren Sun,Yuran Li,Di Wu,Benoit Boulet |
発行日 | 2025-01-22 15:59:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google