Establishing Vocabulary Tests as a Benchmark for Evaluating Large Language Models

要約

語彙テストは、かつては言語モデリング評価の基礎でしたが、現在の Llama、Mistral、GPT などの大規模言語モデル (LLM) の状況ではほとんど無視されてきました。
ほとんどの LLM 評価ベンチマークは、特定のタスクやドメイン固有の知識に焦点を当てていますが、言語の理解と言語生成の基本的な言語的側面は無視されていることがよくあります。
この論文では、LLM のパフォーマンスを評価するための貴重なツールとして語彙テストの復活を提唱します。
私たちは 2 つの言語にわたる 2 つの語彙テスト形式を使用して 7 つの LLM を評価し、語彙知識における驚くべきギャップを明らかにしました。
これらの発見は、LLM の単語表現の複雑さ、その学習メカニズム、モデルや言語間のパフォーマンスのばらつきに光を当てます。
さらに、語彙テストを自動的に生成して実行する機能により、アプローチを拡張し、LLM の言語スキルのより完全な全体像を提供する新たな機会が提供されます。

要約(オリジナル)

Vocabulary tests, once a cornerstone of language modeling evaluation, have been largely overlooked in the current landscape of Large Language Models (LLMs) like Llama, Mistral, and GPT. While most LLM evaluation benchmarks focus on specific tasks or domain-specific knowledge, they often neglect the fundamental linguistic aspects of language understanding and production. In this paper, we advocate for the revival of vocabulary tests as a valuable tool for assessing LLM performance. We evaluate seven LLMs using two vocabulary test formats across two languages and uncover surprising gaps in their lexical knowledge. These findings shed light on the intricacies of LLM word representations, their learning mechanisms, and performance variations across models and languages. Moreover, the ability to automatically generate and perform vocabulary tests offers new opportunities to expand the approach and provide a more complete picture of LLMs’ language skills.

arxiv情報

著者 Gonzalo Martínez,Javier Conde,Elena Merino-Gómez,Beatriz Bermúdez-Margaretto,José Alberto Hernández,Pedro Reviriego,Marc Brysbaert
発行日 2024-01-29 09:26:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク