要約
韓国語の大規模言語モデル (LLM) が急速に開発されているにもかかわらず、韓国語に必要な文化的および言語的知識をテストするベンチマーク データセットが依然として明らかに不足しています。
既存の韓国のベンチマーク データセットの多くは、英語のベンチマーク データセットから翻訳によって派生したものであるため、異なる文化的背景が見落とされることがよくあります。
文化的知識を捕捉する韓国のデータをソースとする少数のベンチマーク データセットについては、偏見やヘイトスピーチの検出などの狭いタスクのみが提供されます。
このギャップに対処するために、1,995 の QA ペアで構成されるデータセットである韓国語の文化言語知能 (CLIcK) のベンチマークを導入します。
CLIcK は、韓国語の公式試験と教科書からデータを取得し、言語と文化の 2 つの主要カテゴリに基づいて問題を 11 のカテゴリに分類しています。
CLIcK の各インスタンスに対して、質問に正しく答えるためにどの文化的および言語的知識が必要かについてのきめ細かい注釈が提供されます。
CLIcK を使用して 13 の言語モデルをテストし、そのパフォーマンスを評価します。
私たちの評価により、カテゴリー全体にわたる生徒のパフォーマンスと、理解に影響を与える多様な要因についての洞察が明らかになります。
CLIcK は、韓国の文化と言語における LLM の習熟度について、韓国を中心とした初めての大規模な包括的な分析を提供します。
要約(オリジナル)
Despite the rapid development of large language models (LLMs) for the Korean language, there remains an obvious lack of benchmark datasets that test the requisite Korean cultural and linguistic knowledge. Because many existing Korean benchmark datasets are derived from the English counterparts through translation, they often overlook the different cultural contexts. For the few benchmark datasets that are sourced from Korean data capturing cultural knowledge, only narrow tasks such as bias and hate speech detection are offered. To address this gap, we introduce a benchmark of Cultural and Linguistic Intelligence in Korean (CLIcK), a dataset comprising 1,995 QA pairs. CLIcK sources its data from official Korean exams and textbooks, partitioning the questions into eleven categories under the two main categories of language and culture. For each instance in CLIcK, we provide fine-grained annotation of which cultural and linguistic knowledge is required to answer the question correctly. Using CLIcK, we test 13 language models to assess their performance. Our evaluation uncovers insights into their performances across the categories, as well as the diverse factors affecting their comprehension. CLIcK offers the first large-scale comprehensive Korean-centric analysis of LLMs’ proficiency in Korean culture and language.
arxiv情報
著者 | Eunsu Kim,Juyoung Suk,Philhoon Oh,Haneul Yoo,James Thorne,Alice Oh |
発行日 | 2024-03-12 10:33:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google