要約
韓国の歴史文書は貴重な文化遺産ですが、それらの文書を理解するには漢字に関する深い専門知識が必要です。
漢字は 20 世紀以前に韓国で使用されていた古代言語で、その文字は古い中国語から借用されましたが、何世紀にもわたって韓国で進化しました。
現代の韓国人や中国人は、実質的な追加の支援がなければ韓国の歴史文書を理解することができず、これまでの取り組みでいくつかの韓国語と英語の翻訳が作成されてきましたが、これには深い専門知識が必要であるため、文書のほとんどは現代語に翻訳されていません。
このギャップに対処するために、漢字で書かれた未踏の韓国の歴史文書の理解と翻訳を支援する初のオープンソースの漢字 NLP ツールキットである HERITAGE を紹介します。
HERITAGE は、Hanja 言語モデルを介して歴史文書理解における 3 つの重要なタスク (句読点の復元、固有表現認識、機械翻訳 (MT)) のモデル予測を提供する Web ベースのプラットフォームです。
HERITAGE は、現代韓国語の漢字の文字レベルの読み方と文字レベルの英語の定義を提供するインタラクティブな用語集も提供します。
HERITAGE には 2 つの目的があります。
まず、これらのドキュメントに興味がある人は誰でも、モデル予測とインタラクティブな用語集、特に韓国語と英語での MT 出力から一般的な理解を得ることができます。
第 2 に、モデルの出力は完璧ではないため、Hanja の専門家はモデルの出力を修正して、より良い注釈と翻訳を作成できます。
これにより翻訳効率が向上し、ほとんどの歴史文書が現代語に翻訳される可能性があり、未踏の韓国の歴史文書への障壁が低くなる可能性がある。
要約(オリジナル)
While Korean historical documents are invaluable cultural heritage, understanding those documents requires in-depth Hanja expertise. Hanja is an ancient language used in Korea before the 20th century, whose characters were borrowed from old Chinese but had evolved in Korea for centuries. Modern Koreans and Chinese cannot understand Korean historical documents without substantial additional help, and while previous efforts have produced some Korean and English translations, this requires in-depth expertise, and so most of the documents are not translated into any modern language. To address this gap, we present HERITAGE, the first open-source Hanja NLP toolkit to assist in understanding and translating the unexplored Korean historical documents written in Hanja. HERITAGE is a web-based platform providing model predictions of three critical tasks in historical document understanding via Hanja language models: punctuation restoration, named entity recognition, and machine translation (MT). HERITAGE also provides an interactive glossary, which provides the character-level reading of the Hanja characters in modern Korean, as well as character-level English definition. HERITAGE serves two purposes. First, anyone interested in these documents can get a general understanding from the model predictions and the interactive glossary, especially MT outputs in Korean and English. Second, since the model outputs are not perfect, Hanja experts can revise them to produce better annotations and translations. This would boost the translation efficiency and potentially lead to most of the historical documents being translated into modern languages, lowering the barrier on unexplored Korean historical documents.
arxiv情報
著者 | Seyoung Song,Haneul Yoo,Jiho Jin,Kyunghyun Cho,Alice Oh |
発行日 | 2025-01-21 07:49:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google