要約
大規模言語モデル (LLM)、特にユーザーが対話できる会話モデルへの関心が高まっているため、多数のオープンソース チャット LLM が開発されています。
これらのモデルは、ほぼあらゆるトピックに関する質問に答えたり問題を解決したりする能力を評価したり、文章を推論したり解釈したりする能力をテストするために、幅広いベンチマークで評価されます。
その代わりに、これらのモデルが言語について持つ知識の評価はあまり注目されていません。
たとえば、さまざまな言語で認識して使用できる単語などです。
このペーパーでは、参照辞書内の単語のサンプルをテストすることにより、オープンソース チャット LLM がスペイン語の単語について持っている知識を評価します。
その結果、オープンソースのチャット LLM は単語の重要な部分について誤った意味を生成し、ほとんどの単語を正しく使用して文脈を考慮した文章を書くことができないことがわかりました。
これらの結果は、スペイン語がオープンソース LLM 競争でいかに取り残されているかを示しており、会話型 LLM が言語間で同様のパフォーマンスを提供できるように言語的公平性を推進する必要性を浮き彫りにしています。
要約(オリジナル)
The growing interest in Large Language Models (LLMs) and in particular in conversational models with which users can interact has led to the development of a large number of open-source chat LLMs. These models are evaluated on a wide range of benchmarks to assess their capabilities in answering questions or solving problems on almost any possible topic or to test their ability to reason or interpret texts. Instead, the evaluation of the knowledge that these models have of the languages has received much less attention. For example, the words that they can recognize and use in different languages. In this paper, we evaluate the knowledge that open-source chat LLMs have of Spanish words by testing a sample of words in a reference dictionary. The results show that open-source chat LLMs produce incorrect meanings for an important fraction of the words and are not able to use most of the words correctly to write sentences with context. These results show how Spanish is left behind in the open-source LLM race and highlight the need to push for linguistic fairness in conversational LLMs ensuring that they provide similar performance across languages.
arxiv情報
著者 | Javier Conde,Miguel González,Nina Melero,Raquel Ferrando,Gonzalo Martínez,Elena Merino-Gómez,José Alberto Hernández,Pedro Reviriego |
発行日 | 2024-09-24 13:25:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google