Towards Effective Ancient Chinese Translation: Dataset, Model, and Evaluation

要約

古代中国語の解釈は、広大な中国の文学、伝統、文明を理解する鍵となります。
本稿では古代中国語の翻訳にEryaを提案する。
データセットの観点から、私たちはさまざまな情報源から古代中国の資料を収集、整理、分類し、これまでで最も広範な古代中国のリソースを形成しています。
モデルの観点から、古代中国人に向けたエリヤ訓練法を考案します。
私たちは、2 音節整列置換 (DAS) とデュアル マスク言語モデル (DMLM) という 2 つの共同作業タスクを設計します。
評価の観点から、さまざまなシナリオで古代中国語の翻訳の品質を判断するためのベンチマークを構築し、さまざまな既存のモデルの古代中国語の翻訳能力を評価します。
私たちのモデルは、5 つのドメインにわたって顕著なゼロショット パフォーマンスを示し、GPT-3.5 モデルに対して +12.0 BLEU を超え、人間による評価結果は ERNIE Bot よりも優れています。
その後の微調整により、+6.2 BLEU ゲインによる Erya モデルの優れた転送能力がさらにわかりました。
上記のリソースはすべて https://github.com/RUCAIBox/Erya でリリースされています。

要約(オリジナル)

Interpreting ancient Chinese has been the key to comprehending vast Chinese literature, tradition, and civilization. In this paper, we propose Erya for ancient Chinese translation. From a dataset perspective, we collect, clean, and classify ancient Chinese materials from various sources, forming the most extensive ancient Chinese resource to date. From a model perspective, we devise Erya training method oriented towards ancient Chinese. We design two jointly-working tasks: disyllabic aligned substitution (DAS) and dual masked language model (DMLM). From an evaluation perspective, we build a benchmark to judge ancient Chinese translation quality in different scenarios and evaluate the ancient Chinese translation capacities of various existing models. Our model exhibits remarkable zero-shot performance across five domains, with over +12.0 BLEU against GPT-3.5 models and better human evaluation results than ERNIE Bot. Subsequent fine-tuning further shows the superior transfer capability of Erya model with +6.2 BLEU gain. We release all the above-mentioned resources at https://github.com/RUCAIBox/Erya.

arxiv情報

著者 Geyang Guo,Jiarong Yang,Fengyuan Lu,Jiaxin Qin,Tianyi Tang,Wayne Xin Zhao
発行日 2023-08-01 02:43:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク