TransProQA: an LLM-based literary Translation evaluation metric with Professional Question Answering

要約

大規模な言語モデル(LLMS)の影響は、文学の領域に拡張されています。
ただし、既存の評価メトリックは、芸術的表現よりも機械的精度を優先し、経験豊富な専門的な人間の翻訳よりも優れていると機械翻訳(MT)を過大評価する傾向があります。
長期的には、このバイアスは翻訳の質と文化的信頼性の永続的な低下をもたらす可能性があります。
専門の文学評価メトリックの緊急の必要性に応じて、文学的翻訳評価のために特別に設計された、リファレンスフリーのLLMベースの質問(QA)フレームワークであるTransproqAを紹介します。
Transproqaは、専門的な文学翻訳者や研究者からの洞察を独自に統合し、文学的なデバイス、文化的理解、著者の声などの文学品質評価の重要な要素に焦点を当てています。
私たちの広範な評価によると、文学系統のXcomet-XLは限界的な利益をもたらしますが、トランスプロカは現在のメトリックを大幅に上回り、相関(ACC-EQとKendallのTAU)で最大0.07の増加を達成し(ACC-EQとKendallのTAU)、最高の最先端の(SOTA)メトリックを15点以上超えて控えめに上回ることが示されています。
プロフェッショナルな翻訳者の洞察を組み込んで、ウェイトがパフォーマンスを改善し、翻訳者の入力の価値を強調します。
特に、TransproqAは、訓練された言語アノテーターに匹敵する人間レベルの評価パフォーマンスにアプローチします。
llama3.3-70bやqwen2.5-32bなどのオープンソースモデルへの幅広い適用性を示しており、アクセス可能でトレーニングのない文学評価メトリックとしての可能性と、著作権や倫理的な考慮事項のためにローカル処理を必要とするテキストを評価するための貴重なツールを示しています。

要約(オリジナル)

The impact of Large Language Models (LLMs) has extended into literary domains. However, existing evaluation metrics prioritize mechanical accuracy over artistic expression and tend to overrate machine translation (MT) as being superior to experienced professional human translation. In the long run, this bias could result in a permanent decline in translation quality and cultural authenticity. In response to the urgent need for a specialized literary evaluation metric, we introduce TransProQA, a novel, reference-free, LLM-based question-answering (QA) framework designed specifically for literary translation evaluation. TransProQA uniquely integrates insights from professional literary translators and researchers, focusing on critical elements in literary quality assessment such as literary devices, cultural understanding, and authorial voice. Our extensive evaluation shows that while literary-finetuned XCOMET-XL yields marginal gains, TransProQA substantially outperforms current metrics, achieving up to 0.07 gain in correlation (ACC-EQ and Kendall’s tau) and surpassing the best state-of-the-art (SOTA) metrics by over 15 points in adequacy assessments. Incorporating professional translator insights as weights further improves performance, highlighting the value of translator inputs. Notably, TransProQA approaches human-level evaluation performance comparable to trained linguistic annotators. It demonstrates broad applicability to open-source models such as LLaMA3.3-70b and Qwen2.5-32b, indicating its potential as an accessible and training-free literary evaluation metric and a valuable tool for evaluating texts that require local processing due to copyright or ethical considerations.

arxiv情報

著者 Ran Zhang,Wei Zhao,Lieve Macken,Steffen Eger
発行日 2025-05-08 17:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク