How Well Do Large Reasoning Models Translate? A Comprehensive Evaluation for Multi-Domain Machine Translation

要約

大規模な言語モデル(LLMS)は、汎用機の翻訳で強力なパフォーマンスを実証していますが、複雑でドメインに敏感な翻訳タスクでの有効性は露出度の低いままです。
大規模な推論モデル(LRMS)の最近の進歩は、構造化された推論が多様なドメイン全体で翻訳の品質を向上させることができるかどうかの問題を提起します。
この作業では、LRMのパフォーマンスを、15の代表的なドメインと4つの翻訳方向にまたがる従来のLLMと比較します。
私たちの評価では、タスクの難易度、入力長、用語密度など、さまざまな要因を考慮しています。
自動メトリックと強化されたMQMベースの評価階層の組み合わせを使用して、翻訳の品質を評価します。
私たちの調査結果は、LR​​MSが、特に長所および高度な翻訳シナリオで、意味的に複雑なドメインで従来のLLMを一貫して上回ることを示しています。
さらに、ドメイン適応プロンプト戦略は、LRMSの推論能力をより強化することにより、パフォーマンスをさらに向上させます。
これらの結果は、MDMTタスクの構造化された推論の可能性を強調し、ドメインに敏感なコンテキストで翻訳システムを最適化するための貴重な洞察を提供します。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong performance in general-purpose machine translation, but their effectiveness in complex, domain-sensitive translation tasks remains underexplored. Recent advancements in Large Reasoning Models (LRMs), raise the question of whether structured reasoning can enhance translation quality across diverse domains. In this work, we compare the performance of LRMs with traditional LLMs across 15 representative domains and four translation directions. Our evaluation considers various factors, including task difficulty, input length, and terminology density. We use a combination of automatic metrics and an enhanced MQM-based evaluation hierarchy to assess translation quality. Our findings show that LRMs consistently outperform traditional LLMs in semantically complex domains, especially in long-text and high-difficulty translation scenarios. Moreover, domain-adaptive prompting strategies further improve performance by better leveraging the reasoning capabilities of LRMs. These results highlight the potential of structured reasoning in MDMT tasks and provide valuable insights for optimizing translation systems in domain-sensitive contexts.

arxiv情報

著者 Yongshi Ye,Biao Fu,Chongxuan Huang,Yidong Chen,Xiaodong Shi
発行日 2025-05-26 13:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク