要約
コンテキストを理解することは人間の言語を理解するための鍵であり、大規模言語モデル (LLM) がその能力を印象的な範囲で実証することがますます増えています。
ただし、LLM の評価には自然言語処理の領域内のさまざまな領域が含まれていますが、文脈上の特徴を理解する言語能力の調査には限定的な注意が払われてきました。
この論文では、生成モデルの評価に合わせて既存のデータセットを適応させることによるコンテキスト理解ベンチマークを紹介します。
このベンチマークは 4 つの異なるタスクと 9 つのデータセットで構成されており、すべてのモデルのコンテキストを理解する能力を評価するように設計されたプロンプトが特徴です。
まず、コンテキスト内学習の事前トレーニング シナリオの下で LLM のパフォーマンスを評価します。
実験結果は、事前トレーニングされた高密度モデルは、最先端の微調整されたモデルと比較した場合、より微妙なコンテキスト上の特徴を理解するのに苦労することを示しています。
第 2 に、LLM 圧縮は研究と現実世界のアプリケーションの両方で重要性を増しているため、コンテキスト内学習設定の下で量子化モデルのコンテキスト理解を評価します。
3 ビットのポストトレーニング量子化により、ベンチマークのパフォーマンスがさまざまな程度低下することがわかりました。
私たちは実験結果を実証するために、これらのシナリオの広範な分析を実施します。
要約(オリジナル)
Understanding context is key to understanding human language, an ability which Large Language Models (LLMs) have been increasingly seen to demonstrate to an impressive extent. However, though the evaluation of LLMs encompasses various domains within the realm of Natural Language Processing, limited attention has been paid to probing their linguistic capability of understanding contextual features. This paper introduces a context understanding benchmark by adapting existing datasets to suit the evaluation of generative models. This benchmark comprises of four distinct tasks and nine datasets, all featuring prompts designed to assess the models’ ability to understand context. First, we evaluate the performance of LLMs under the in-context learning pretraining scenario. Experimental results indicate that pre-trained dense models struggle with understanding more nuanced contextual features when compared to state-of-the-art fine-tuned models. Second, as LLM compression holds growing significance in both research and real-world applications, we assess the context understanding of quantized models under in-context-learning settings. We find that 3-bit post-training quantization leads to varying degrees of performance reduction on our benchmark. We conduct an extensive analysis of these scenarios to substantiate our experimental results.
arxiv情報
| 著者 | Yilun Zhu,Joel Ruben Antony Moniz,Shruti Bhargava,Jiarui Lu,Dhivya Piraviperumal,Site Li,Yuan Zhang,Hong Yu,Bo-Hsiang Tseng |
| 発行日 | 2024-02-01 18:55:29+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google