Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models

要約

自然言語処理 (NLP) の最近の研究は現代言語に焦点を当てており、多くのタスクで最先端の結果を達成しています。
一方、古代の文書や関連する作業にはほとんど注目が払われてきませんでした。
古典中国語は約2,000年前に初めて日本に伝わりました。
それは、日本語の読み方と翻訳方法における漢文訓読(漢文)と呼ばれる日本語の形式に徐々に適応され、日本文学に大きな影響を与えました。
しかし、中国本土の豊富な古文書資料に比べ、日本では漢文資料が依然として不足しています。
この問題を解決するために、私たちは世界初の古文から漢文へのデータセットを構築しました。
さらに、漢文の理解に重要な役割を果たす、文字の並べ替えと機械翻訳という 2 つのタスクを紹介します。
また、これらのタスクについて現在の言語モデルをテストし、結果を人間のスコアと比較することで最適な評価方法について議論します。
コードとデータセットを GitHub でリリースします。

要約(オリジナル)

Recent studies in natural language processing (NLP) have focused on modern languages and achieved state-of-the-art results in many tasks. Meanwhile, little attention has been paid to ancient texts and related tasks. Classical Chinese first came to Japan approximately 2,000 years ago. It was gradually adapted to a Japanese form called Kanbun-Kundoku (Kanbun) in Japanese reading and translating methods, which has significantly impacted Japanese literature. However, compared to the rich resources for ancient texts in mainland China, Kanbun resources remain scarce in Japan. To solve this problem, we construct the first Classical-Chinese-to-Kanbun dataset in the world. Furthermore, we introduce two tasks, character reordering and machine translation, both of which play a significant role in Kanbun comprehension. We also test the current language models on these tasks and discuss the best evaluation method by comparing the results with human scores. We release our code and dataset on GitHub.

arxiv情報

著者 Hao Wang,Hirofumi Shimizu,Daisuke Kawahara
発行日 2024-07-02 13:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク