HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models

要約

大規模なコーパスで事前トレーニングされた大規模言語モデル (LLM) は、幅広いタスクにわたって優れた機能を発揮しますが、この研究分野では英語以外の言語に対する注目は限定的でした。
このギャップに対処し、韓国語と文化における言語モデルの習熟度を評価するために、語彙、歴史、一般知識を含む 6 つのタスクをカバーする HAE-RAE ベンチを紹介します。
このベンチマークでの言語モデルの評価は、GPT-3.5 のような包括的で汎用的なモデルよりも大規模言語固有モデル (LLSM) を採用することの潜在的な利点を強調しています。
注目すべきことに、私たちの研究では、GPT-3.5 よりも約 13 分の 1 小さいモデルでも、言語固有の知識の検索に関しては同等のパフォーマンス レベルを発揮できることが明らかになりました。
この観察は、専門レベルの言語固有モデルをトレーニングするための均質なコーパスの重要性を強調しています。
それどころか、これらの小規模な LM が構造化された回答を生成する任務を負っている場合、困惑するほどパフォーマンスが低下することも観察されています。

要約(オリジナル)

Large Language Models (LLMs) pretrained on massive corpora exhibit remarkable capabilities across a wide range of tasks, however, the attention given to non-English languages has been limited in this field of research. To address this gap and assess the proficiency of language models in the Korean language and culture, we present HAE-RAE Bench, covering 6 tasks including vocabulary, history, and general knowledge. Our evaluation of language models on this benchmark highlights the potential advantages of employing Large Language-Specific Models(LLSMs) over a comprehensive, universal model like GPT-3.5. Remarkably, our study reveals that models approximately 13 times smaller than GPT-3.5 can exhibit similar performance levels in terms of language-specific knowledge retrieval. This observation underscores the importance of homogeneous corpora for training professional-level language-specific models. On the contrary, we also observe a perplexing performance dip in these smaller LMs when they are tasked to generate structured answers.

arxiv情報

著者 Guijin Son,Hanwool Lee,Suwan Kim,Jaecheol Lee,Je Won Yeom,Jihyu Jung,Jung Woo Kim,Songseong Kim
発行日 2023-09-06 04:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク