HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models

要約

大規模なコーパスでトレーニングされた大規模言語モデル (LLM) は、幅広いタスクで優れた機能を発揮します。
これらのモデルを英語以外の言語にも適用する取り組みが継続的に行われていますが、その評価方法に対する注目は依然として限定的です。
現在の多言語ベンチマークは、逆翻訳や英語テストの再実装に依存していることが多く、独自の文化的および言語的ニュアンスを捉える能力が制限されています。
韓国語のこのギャップを埋めるために、韓国の文化と文脈の深さが欠けているモデルに挑戦するために厳選されたデータセットである HAE-RAE ベンチを紹介します。
このデータセットには、語彙、歴史、一般知識、読解という 4 つの領域にわたる 6 つの下流タスクが含まれています。
トークンとシーケンスの分類、または数学的および論理的推論に焦点を当てた従来の評価スイートとは異なり、HAE-RAE ベンチは韓国固有の知識と文化的背景を想起するモデルの適性を重視します。
以前の韓国のベンチマークとの比較分析は、HAE-RAE ベンチが英語から学習した能力と知識の伝達を妨げることにより、非韓国モデルに対して大きな課題を提示していることを示しています。

要約(オリジナル)

Large language models (LLMs) trained on massive corpora demonstrate impressive capabilities in a wide range of tasks. While there are ongoing efforts to adapt these models to languages beyond English, the attention given to their evaluation methodologies remains limited. Current multilingual benchmarks often rely on back translations or re-implementations of English tests, limiting their capacity to capture unique cultural and linguistic nuances. To bridge this gap for the Korean language, we introduce the HAE-RAE Bench, a dataset curated to challenge models lacking Korean cultural and contextual depth. The dataset encompasses six downstream tasks across four domains: vocabulary, history, general knowledge, and reading comprehension. Unlike traditional evaluation suites focused on token and sequence classification or mathematical and logical reasoning, the HAE-RAE Bench emphasizes a model’s aptitude for recalling Korean-specific knowledge and cultural contexts. Comparative analysis with prior Korean benchmarks indicates that the HAE-RAE Bench presents a greater challenge to non-Korean models by disturbing abilities and knowledge learned from English being transferred.

arxiv情報

著者 Guijin Son,Hanwool Lee,Suwan Kim,Huiseo Kim,Jaecheol Lee,Je Won Yeom,Jihyu Jung,Jung Woo Kim,Songseong Kim
発行日 2024-03-20 16:56:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク