WYWEB: A NLP Evaluation Benchmark For Classical Chinese

要約

特定のドメイン内のさまざまな NLP モデルの全体的なパフォーマンスを完全に評価するために、GLUE、SuperGLUE、CLUE などの多くの評価ベンチマークが提案されています。
自然言語理解の分野は伝統的に、中国語、英語、多言語などの言語のさまざまなタスクのベンチマークに焦点を当ててきましたが、「ウェンヤンウェン」としても知られる古典中国語の分野にはあまり注目が集まってきませんでした。
何千年にもわたる豊かな歴史があり、重要な文化的および学術的価値を持っています。
NLP コミュニティの繁栄のために、この論文では、文の分類、シーケンスのラベル付け、読解、および機械翻訳を実装する古典中国語の 9 つの NLP タスクで構成される WYWEB 評価ベンチマークを紹介します。
既存の事前トレーニング済み言語モデルを評価しますが、これらはすべてこのベンチマークで苦労しています。
また、古典中国語 NLU のさらなる進歩を促進するために、多数の補足データセットと追加ツールも紹介します。
github リポジトリは https://github.com/baudzhou/WYWEB です。

要約(オリジナル)

To fully evaluate the overall performance of different NLP models in a given domain, many evaluation benchmarks are proposed, such as GLUE, SuperGLUE and CLUE. The fi eld of natural language understanding has traditionally focused on benchmarks for various tasks in languages such as Chinese, English, and multilingua, however, there has been a lack of attention given to the area of classical Chinese, also known as ‘wen yan wen’, which has a rich history spanning thousands of years and holds signifi cant cultural and academic value. For the prosperity of the NLP community, in this paper, we introduce the WYWEB evaluation benchmark, which consists of nine NLP tasks in classical Chinese, implementing sentence classifi cation, sequence labeling, reading comprehension, and machine translation. We evaluate the existing pre-trained language models, which are all struggling with this benchmark. We also introduce a number of supplementary datasets and additional tools to help facilitate further progress on classical Chinese NLU. The github repository is https://github.com/baudzhou/WYWEB.

arxiv情報

著者 Bo Zhou,Qianglong Chen,Tianyu Wang,Xiaomi Zhong,Yin Zhang
発行日 2023-05-23 15:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク