DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

要約

最近、O1 のようなモデルが代表的な例として登場し、数学やコーディング タスクなどの推論タスクにおける長い思考連鎖 (CoT) の有効性を示しています。
この論文では、長い CoT をニューラル機械翻訳 (MT) に成功させる試みである DRT-o1 を紹介します。
具体的には、直喩や比喩が含まれる可能性のある文学書籍を考慮すると、文化の違いにより、これらのテキストをターゲット言語に翻訳することは実際には非常に困難です。
このような場合、直訳では意図した意味が効果的に伝わらないことがよくあります。
プロの人間の翻訳者であっても、翻訳プロセス全体を通じて意味論を維持することについてかなりの考慮を払う必要があります。
MT で LLM の長考能力をシミュレートするために、まず既存の文献から直喩や比喩を含む文をマイニングし、次にこれらの文を長考を介して翻訳するマルチエージェント フレームワークを開発します。
マルチエージェント フレームワークでは、翻訳者を使用して、アドバイザーの提案に従って原文を繰り返し翻訳します。
長考の効果を確実にするために、今回の翻訳が前回の翻訳よりも優れているかどうかを判断する評価者も採用されています。
このようにして、長年考えられた数万の MT データを収集し、DRT-o1 のトレーニングに使用します。
文献翻訳に関する実験結果は、DRT-o1 の有効性を示しています。
Qwen2.5-7B および Qwen2.5-14B をバックボーンとして使用し、DRT-o1 によってもたらされる改善により、BLEU 7.33 ~ 8.26 と CometScore 1.66 ~ 3.36 を達成しました。
さらに、DRT-o1-7B は QwQ-32B-Preview よりも 7.82 BLEU と 1.46 CometScore で優れており、その有効性を示しています。
プロジェクトは https://github.com/krystalan/DRT-o1 で入手できます。

要約(オリジナル)

Recently, O1-like models have emerged as representative examples, illustrating the effectiveness of long chain-of-thought (CoT) in reasoning tasks such as math and coding tasks. In this paper, we introduce DRT-o1, an attempt to bring the success of long CoT to neural machine translation (MT). Specifically, in view of the literature books that might involve similes and metaphors, translating these texts to a target language is very difficult in practice due to cultural differences. In such cases, literal translation often fails to convey the intended meaning effectively. Even for professional human translators, considerable thought must be given to preserving semantics throughout the translation process. To simulate LLMs’ long thought ability in MT, we first mine sentences containing similes or metaphors from existing literature books, and then develop a multi-agent framework to translate these sentences via long thought. In the multi-agent framework, a translator is used to iteratively translate the source sentence under the suggestions provided by an advisor. To ensure the effectiveness of the long thoughts, an evaluator is also employed to judge whether the translation in the current round is better than the previous one or not. In this manner, we collect tens of thousands of long-thought MT data, which is used to train our DRT-o1. The experimental results on literature translation demonstrate the effectiveness of the DRT-o1. Using Qwen2.5-7B and Qwen2.5-14B as the backbones, the improvement brought by DRT-o1 achieves 7.33~8.26 BLEU and 1.66~3.36 CometScore. Besides, DRT-o1-7B can outperform QwQ-32B-Preview by 7.82 BLEU and 1.46 CometScore, showing its effectiveness. The project is available at https://github.com/krystalan/DRT-o1

arxiv情報

著者 Jiaan Wang,Fandong Meng,Yunlong Liang,Jie Zhou
発行日 2024-12-23 11:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク