Advancing the Evaluation of Traditional Chinese Language Models: Towards a Comprehensive Benchmark Suite

要約

大規模な言語モデルの評価は、言語の理解と生成の分野において不可欠なタスクです。
言語モデルが進化し続けるにつれて、そのパフォーマンスを評価するための効果的なベンチマークの必要性が不可欠になっています。
繁体字中国語のコンテキストでは、DRCD、TTQA、CMDQA、FGC データセットなどの特定のベンチマークが存在するにもかかわらず、言語モデルの機能を評価するための包括的で多様なベンチマークが不足しています。
このギャップに対処するために、既存の英語データセットを活用し、繁体字中国語の言語モデルを評価するように調整された新しいベンチマーク セットを提案します。
これらのベンチマークには、状況に応じた質問への回答、要約、分類、表の理解など、幅広いタスクが含まれます。
提案されたベンチマークは包括的な評価フレームワークを提供し、さまざまなタスクにわたる言語モデルの機能の評価を可能にします。
本稿では、GPT-3.5、Taiwan-LLaMa-v1.0、および当社独自モデル Model 7-C の性能をこれらのベンチマークで評価します。
評価結果では、当社モデル Model 7-C が評価機能の一部に関して GPT-3.5 と同等の性能を達成していることが分かりました。
繁体字中国語の言語モデルの評価を進め、この分野でのさらなる研究を促進する取り組みとして、私たちはベンチマークをオープンソース化し、モデルを試験的に公開しました。

要約(オリジナル)

The evaluation of large language models is an essential task in the field of language understanding and generation. As language models continue to advance, the need for effective benchmarks to assess their performance has become imperative. In the context of Traditional Chinese, there is a scarcity of comprehensive and diverse benchmarks to evaluate the capabilities of language models, despite the existence of certain benchmarks such as DRCD, TTQA, CMDQA, and FGC dataset. To address this gap, we propose a novel set of benchmarks that leverage existing English datasets and are tailored to evaluate language models in Traditional Chinese. These benchmarks encompass a wide range of tasks, including contextual question-answering, summarization, classification, and table understanding. The proposed benchmarks offer a comprehensive evaluation framework, enabling the assessment of language models’ capabilities across different tasks. In this paper, we evaluate the performance of GPT-3.5, Taiwan-LLaMa-v1.0, and Model 7-C, our proprietary model, on these benchmarks. The evaluation results highlight that our model, Model 7-C, achieves performance comparable to GPT-3.5 with respect to a part of the evaluated capabilities. In an effort to advance the evaluation of language models in Traditional Chinese and stimulate further research in this field, we have open-sourced our benchmark and opened the model for trial.

arxiv情報

著者 Chan-Jan Hsu,Chang-Le Liu,Feng-Ting Liao,Po-Chun Hsu,Yi-Chang Chen,Da-shan Shiu
発行日 2023-09-15 14:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク