要約
中国圏の歴史的および言語的つながりにより、研究者は韓国と日本の歴史文書を処理する際に言語を越えた転送に古典中国語のリソースを使用するようになりました。
この論文では、古典中国語から韓国と日本の古代の書き言葉である漢字と漢文への言語を越えた転移可能性の仮定に疑問を呈します。
機械翻訳、固有表現認識、句読点復元タスクにわたる実験では、漢字で書かれた古代韓国語文書の言語モデルのパフォーマンスに対する古典中国語データセットの影響は最小限であり、シーケンス ラベリングのパフォーマンス差は $\pm{}0.0068$ F1 スコア以内であることがわかりました。
タスクと翻訳に対する最大 $+0.84$ の BLEU スコア。
これらの制限は、さまざまなモデル サイズ、アーキテクチャ、ドメイン固有のデータセットにわたって一貫して存続します。
私たちの分析では、漢字の現地言語データが増加するにつれて古典中国語リソースの利点が急速に減少する一方で、韓国と日本の歴史文書の両方については、リソースが非常に少ないシナリオでのみ大幅な改善が示されていることが明らかになりました。
これらのさまざまな結果は、無差別の言語を越えた転移による利益を想定するのではなく、慎重な経験的検証の必要性を強調しています。
要約(オリジナル)
Historical and linguistic connections within the Sinosphere have led researchers to use Classical Chinese resources for cross-lingual transfer when processing historical documents from Korea and Japan. In this paper, we question the assumption of cross-lingual transferability from Classical Chinese to Hanja and Kanbun, the ancient written languages of Korea and Japan, respectively. Our experiments across machine translation, named entity recognition, and punctuation restoration tasks show minimal impact of Classical Chinese datasets on language model performance for ancient Korean documents written in Hanja, with performance differences within $\pm{}0.0068$ F1-score for sequence labeling tasks and up to $+0.84$ BLEU score for translation. These limitations persist consistently across various model sizes, architectures, and domain-specific datasets. Our analysis reveals that the benefits of Classical Chinese resources diminish rapidly as local language data increases for Hanja, while showing substantial improvements only in extremely low-resource scenarios for both Korean and Japanese historical documents. These mixed results emphasize the need for careful empirical validation rather than assuming benefits from indiscriminate cross-lingual transfer.
arxiv情報
著者 | Seyoung Song,Haneul Yoo,Jiho Jin,Kyunghyun Cho,Alice Oh |
発行日 | 2024-11-07 15:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google