A 2-step Framework for Automated Literary Translation Evaluation: Its Promises and Pitfalls

要約

この研究では、英語から韓国語への文学機械翻訳をきめ細かい方法で評価するための 2 段階のパイプラインの実現可能性を提案し、評価します。
結果は、私たちのフレームワークが文学翻訳に適したきめの細かい解釈可能な指標を提供し、従来の機械翻訳の指標よりも人間の判断との高い相関性が得られることを示しています。
それにもかかわらず、特に韓国語の敬語などの指標においては、人間間の合意にはまだ達していません。
また、LLM は他の LLM によって生成された翻訳を好む傾向があることも観察しており、文学作品の正確かつ文化的に配慮した機械翻訳を保証するために、より洗練された評価方法を開発する必要性を強調しています。

要約(オリジナル)

In this work, we propose and evaluate the feasibility of a two-stage pipeline to evaluate literary machine translation, in a fine-grained manner, from English to Korean. The results show that our framework provides fine-grained, interpretable metrics suited for literary translation and obtains a higher correlation with human judgment than traditional machine translation metrics. Nonetheless, it still fails to match inter-human agreement, especially in metrics like Korean Honorifics. We also observe that LLMs tend to favor translations generated by other LLMs, and we highlight the necessity of developing more sophisticated evaluation methods to ensure accurate and culturally sensitive machine translation of literary works.

arxiv情報

著者 Sheikh Shafayat,Dongkeun Yoon,Woori Jang,Jiwoo Choi,Alice Oh,Seohyon Jung
発行日 2025-01-02 03:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク