How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs

要約

最近の研究は、MT の新たな課題として文学機械翻訳 (MT) に焦点を当てています。
しかし、文学的MTの評価は未解決の問題のままである。
私たちは、複数の検証済み人間による翻訳と 9 MT システムからの出力で構成される段落レベルの並列コーパスである LITEVAL-CORPUS を導入することで、この進行中の議論に貢献します。これは合計 2,000 段落を超え、4 つの言語ペアにわたる 13,000 の注釈付き文を含み、価格は 4.5,000 ユーロです。
このコーパスを使用すると、(i) 複数のアノテーション スキームの一貫性と適切性を検査し、(ii) 学生と専門家による評価を比較し、(iii) LLM ベースの指標の有効性を評価することができます。
非文学的な人間による MT 評価の事実上の標準である多次元品質メトリクス (MQM) は、文学翻訳には不適切であることがわかりました。一方で、学生向けのベストワースト スケーリング (BWS) やプロの翻訳者向けのスカラー品質メトリクス (SQM) が好まれています。
人間による翻訳の割合はそれぞれ約 82% と約 94% ですが、学生アノテーターによる MQM は、最もパフォーマンスの高い LLM の翻訳よりも専門家による人間の翻訳を優先するケースはわずか約 42% です。
自動メトリクスは通常、人間による MQM および SQM と中程度の相関関係を示しますが、人間による翻訳を正確に識別するのは困難で、その割合は最大でも約 20% です。
私たちの全体的な評価は、人間の専門家による翻訳が一貫して LLM 翻訳よりも優れていることを示しています。最新の LLM であっても、人間による翻訳と比較すると、より直訳的で多様性に欠ける翻訳が生成される傾向があります。
ただし、GPT-4o などの新しい LLM は、古いものよりもパフォーマンスが大幅に優れています。

要約(オリジナル)

Recent research has focused on literary machine translation (MT) as a new challenge in MT. However, the evaluation of literary MT remains an open problem. We contribute to this ongoing discussion by introducing LITEVAL-CORPUS, a paragraph-level parallel corpus comprising multiple verified human translations and outputs from 9 MT systems, which totals over 2k paragraphs and includes 13k annotated sentences across four language pairs, costing 4.5k Euro. This corpus enables us to (i) examine the consistency and adequacy of multiple annotation schemes, (ii) compare evaluations by students and professionals, and (iii) assess the effectiveness of LLM-based metrics. We find that Multidimensional Quality Metrics (MQM), as the de facto standard in non-literary human MT evaluation, is inadequate for literary translation: While Best-Worst Scaling (BWS) with students and Scalar Quality Metric (SQM) with professional translators prefer human translations at rates of ~82% and ~94%, respectively, MQM with student annotators prefers human professional translations over the translations of the best-performing LLMs in only ~42% of cases. While automatic metrics generally show a moderate correlation with human MQM and SQM, they struggle to accurately identify human translations, with rates of at most ~20%. Our overall evaluation indicates that human professional translations consistently outperform LLM translations, where even the most recent LLMs tend to produce more literal and less diverse translations compared to human translations. However, newer LLMs such as GPT-4o perform substantially better than older ones.

arxiv情報

著者 Ran Zhang,Wei Zhao,Steffen Eger
発行日 2024-10-24 12:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク