Deep Reasoning Translation via Reinforcement Learning

要約

最近、深い推論LLM(例:Openai O1/O3およびDeepSeek-R1)は、さまざまな複雑なタスクで有望なパフォーマンスを示しています。
無料の翻訳は、多言語の世界では重要で興味深いタスクであり、言葉だけで翻訳を超えて文化的な違いを考慮に入れる必要があります。
このタスクは、深い推論LLMSでまだ依然として推奨されていません。
この論文では、補強学習を介して無料の翻訳を学習する深い推論翻訳モデルであるDeeptransを紹介します。
具体的には、翻訳結果と思考プロセスの両方で、事前に定義されたスコアリング基準を備えた報酬モデルを慎重に構築します。
ソースの文章を考えると、報酬モデルは、補強学習中に深い翻訳モデルにどのように考えて自由翻訳するかを教えます。
このようにして、トレーニングディープトランでは、人間の集中的な注釈またはリソース集約型のデータ統合を避けるために、ラベル付き翻訳は必要ありません。
実験結果は、ディープトランスの有効性を示しています。
QWEN2.5-7Bをバックボーンとして使用すると、DEEPTRANSは文献翻訳でパフォーマンスを16.3%改善し、合成データで微調整されたベースラインだけでなく、強力な深い推論ベースラインを上回ります。
さらに、RL探査中の障害と興味深い調査結果を要約します。
この作品が他の研究者に無料翻訳で刺激を与えることを願っています。

要約(オリジナル)

Recently, deep reasoning LLMs (e.g., OpenAI o1/o3 and DeepSeek-R1) have shown promising performance in various complex tasks. Free translation is an important and interesting task in the multilingual world, which requires going beyond word-for-word translation and taking cultural differences into account. This task is still under-explored in deep reasoning LLMs. In this paper, we introduce DeepTrans, a deep reasoning translation model that learns free translation via reinforcement learning. Specifically, we carefully build a reward model with pre-defined scoring criteria on both the translation results and the thought process. Given the source sentences, the reward model teaches the deep translation model how to think and free-translate them during reinforcement learning. In this way, training DeepTrans does not need any labeled translations, avoiding the human-intensive annotation or resource-intensive data synthesis. Experimental results show the effectiveness of DeepTrans. Using Qwen2.5-7B as the backbone, DeepTrans improves performance by 16.3% in literature translation, and outperforms strong deep reasoning baselines as well as baselines that are fine-tuned with synthesized data. Moreover, we summarize the failures and interesting findings during our RL exploration. We hope this work could inspire other researchers in free translation.

arxiv情報

著者 Jiaan Wang,Fandong Meng,Jie Zhou
発行日 2025-04-14 12:40:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク