R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning

要約

DeepSeek-R1のような推論を強化した大規模言語モデル(LLM)の最近の躍進にもかかわらず、人間の翻訳者が自然に構造化された多層の推論連鎖思考(CoT)を使用する機械翻訳(MT)に推論時間推論を組み込むことは、まだ十分に研究されていない。既存の方法は、特定のMTサブタスク（文献翻訳など）に合わせた固定CoTを設計するか、人間と一致しないCoTの合成に依存しており、多様な翻訳シナリオへの適応性が制限されている。本論文では、R1-Translator(R1-T1)を紹介する。R1-T1は、6つの一般的なパターンから構成される人間整合CoTを用いた強化学習(RL)により、一般的なMTの推論時間推論を実現する新しいフレームワークである。(1)推論に基づく翻訳をMTのサブタスクにとどまらず、6つの言語と多様なタスク(例えば、法律/医療分野の適応、イディオムの解決)に拡張すること、(2)文脈を意識した言い換えや逆翻訳のような人間のハイブリッド戦略を反映する、専門家がキュレーションした6つのCoTテンプレートを形式化すること、(3)RLによって自己進化するCoTの発見を可能にすること、である。実験の結果、Flores-101テストセットにおいて、11の言語と40の翻訳方向、特にトレーニングで未使用の言語において、安定した翻訳性能の向上が見られた。

要約(オリジナル)

Despite recent breakthroughs in reasoning-enhanced large language models (LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine translation (MT), where human translators naturally employ structured, multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored. Existing methods either design a fixed CoT tailored for a specific MT sub-task (e.g., literature translation), or rely on synthesizing CoTs unaligned with humans, limiting their adaptability to diverse translation scenarios. This paper introduces R1-Translator (R1-T1), a novel framework to achieve inference-time reasoning for general MT via reinforcement learning (RL) with human-aligned CoTs comprising six common patterns. Our approach pioneers three innovations: (1) extending reasoning-based translation beyond MT sub-tasks to six languages and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution); (2) formalizing six expert-curated CoT templates that mirror hybrid human strategies like context-aware paraphrasing and back translation; and (3) enabling self-evolving CoT discovery through RL. Experimental results indicate a steady translation performance improvement in 11 languages and 40 translation directions on Flores-101 test set, especially on the languages unseen from training.

arxiv情報

著者	Minggui He,Yilun Liu,Shimin Tao,Yuanchang Luo,Hongyong Zeng,Chang Su,Li Zhang,Hongxia Ma,Daimeng Wei,Weibin Meng,Hao Yang,Boxing Chen,Osamu Yoshie
発行日	2025-03-03 16:44:25+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー