HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models

要約

大規模なコーパスで事前トレーニングされた大規模言語モデル (LLM) は、幅広いタスクにわたって優れた機能を発揮しますが、この研究分野では英語以外の言語に対する注目は限定的でした。
このギャップに対処し、韓国語と文化における言語モデルの習熟度を評価するために、語彙、歴史、一般知識を含む 6 つのタスクをカバーする HAE-RAE ベンチを紹介します。
このベンチマークでの言語モデルの評価は、GPT-3.5 のような包括的で汎用的なモデルよりも大規模言語固有モデル (LLSM) を採用することの潜在的な利点を強調しています。
注目すべきことに、私たちの研究では、GPT-3.5 よりも約 13 分の 1 小さいモデルでも、言語固有の知識の検索に関しては同等のパフォーマンス レベルを発揮できることが明らかになりました。
この観察は、専門レベルの言語固有モデルをトレーニングするための均質なコーパスの重要性を強調しています。
それどころか、これらの小規模な LM が構造化された回答を生成する任務を負っている場合、困惑するほどパフォーマンスが低下することも観察されています。

要約(オリジナル)

Large Language Models (LLMs) pretrained on massive corpora exhibit remarkable capabilities across a wide range of tasks, however, the attention given to non-English languages has been limited in this field of research. To address this gap and assess the proficiency of language models in the Korean language and culture, we present HAE-RAE Bench, covering 6 tasks including vocabulary, history, and general knowledge. Our evaluation of language models on this benchmark highlights the potential advantages of employing Large Language-Specific Models(LLSMs) over a comprehensive, universal model like GPT-3.5. Remarkably, our study reveals that models approximately 13 times smaller than GPT-3.5 can exhibit similar performance levels in terms of language-specific knowledge retrieval. This observation underscores the importance of homogeneous corpora for training professional-level language-specific models. On the contrary, we also observe a perplexing performance dip in these smaller LMs when they are tasked to generate structured answers.

arxiv情報

著者 Guijin Son,Hanwool Lee,Suwan Kim,Huiseo Kim,Jaecheol Lee,Je Won Yeom,Jihyu Jung,Jung Woo Kim,Songseong Kim
発行日 2023-09-07 01:01:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク