Translating Hanja Historical Documents to Contemporary Korean and English

要約

朝鮮王朝実録 (AJD) には、現代国家韓国に先立つ 500 年間の王国である朝鮮王たちの日々の記録が含まれています。
年代記は元々、古風な韓国語の文字体系である「漢字」で書かれ、1968 年から 1993 年にかけて韓国語に翻訳されました。しかし、結果として得られた翻訳は直訳的すぎて、多くの古風な韓国語の単語が含まれていました。
そのため、専門家による新たな翻訳作業が 2012 年に始まりました。それ以来、10 年間で完成した王の記録は 1 人だけです。
並行して、専門の翻訳者が英語翻訳に取り組んでいますが、これもゆっくりとしたペースで、これまでに英語で作成されたキングス レコードは 1 件だけです。
そこで、我々は漢字の歴史文書をより理解しやすい韓国語と英語に翻訳するニューラル機械翻訳モデルH2KEを提案する。
多言語ニューラル機械翻訳の上に構築された H2KE は、古い韓国語翻訳の完全なデータセットと、最近翻訳された現代韓国語と英語の小規模なデータセットの両方から、漢字で書かれた歴史文書を翻訳することを学習します。
私たちの方法を 2 つのベースラインと比較します。1 つは、Hanja の歴史的文書の復元と翻訳を同時に学習する最近のモデル、もう 1 つは新しく翻訳されたコーパスのみでトレーニングされた Transformer ベースのモデルです。
実験により、現代の韓国語と英語の両方の翻訳について、BLEU スコアの点で、私たちの方法がベースラインを大幅に上回っていることが明らかになりました。
さらに、広範な人間による評価を実施しており、その結果、韓国語の専門家と非専門家の両方から、元の専門家による翻訳よりも私たちの翻訳が好まれていることがわかります。

要約(オリジナル)

The Annals of Joseon Dynasty (AJD) contain the daily records of the Kings of Joseon, the 500-year kingdom preceding the modern nation of Korea. The Annals were originally written in an archaic Korean writing system, `Hanja’, and were translated into Korean from 1968 to 1993. The resulting translation was however too literal and contained many archaic Korean words; thus, a new expert translation effort began in 2012. Since then, the records of only one king have been completed in a decade. In parallel, expert translators are working on English translation, also at a slow pace and produced only one king’s records in English so far. Thus, we propose H2KE, a neural machine translation model, that translates historical documents in Hanja to more easily understandable Korean and to English. Built on top of multilingual neural machine translation, H2KE learns to translate a historical document written in Hanja, from both a full dataset of outdated Korean translation and a small dataset of more recently translated contemporary Korean and English. We compare our method against two baselines: a recent model that simultaneously learns to restore and translate Hanja historical document and a Transformer based model trained only on newly translated corpora. The experiments reveal that our method significantly outperforms the baselines in terms of BLEU scores for both contemporary Korean and English translations. We further conduct extensive human evaluation which shows that our translation is preferred over the original expert translations by both experts and non-expert Korean speakers.

arxiv情報

著者 Juhee Son,Jiho Jin,Haneul Yoo,JinYeong Bak,Kyunghyun Cho,Alice Oh
発行日 2023-12-29 12:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク