DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

要約

最近、O1 のようなモデルが代表的な例として登場し、数学やコーディング タスクなどの推論タスクにおける長い思考連鎖 (CoT) の有効性を示しています。
この論文では、長い CoT をニューラル機械翻訳 (MT) に成功させる試みである DRT-o1 を紹介します。
具体的には、直喩や比喩が含まれる可能性のある文学書籍を考慮すると、文化の違いにより、これらのテキストをターゲット言語に翻訳することは実際には非常に困難です。
このような場合、直訳では意図した意味が効果的に伝わらないことがよくあります。
プロの人間の翻訳者であっても、翻訳プロセス全体を通じて意味論を維持することについてかなりの考慮を払う必要があります。
MT で LLM の長考能力をシミュレートするために、まず既存の文献から直喩や比喩を含む文をマイニングし、次にこれらの文を長考を介して翻訳するマルチエージェント フレームワークを開発します。
マルチエージェント フレームワークでは、翻訳者を使用して、アドバイザーの提案に従って原文を繰り返し翻訳します。
長い思考の有効性を保証するために、各ラウンドでの翻訳を定量化するために評価者も採用されています。
このようにして、長年考えられた数万の MT データを収集し、DRT-o1 のトレーニングに使用します。
Qwen2.5 と LLama-3.1 をバックボーンとして使用することで、DRT-o1 モデルは機械翻訳中に思考プロセスを学習し、バニラ LLM や既存の O1 のような LLM よりも優れたパフォーマンスを発揮し、その有効性を示します。プロジェクトは https:// で入手できます。
github.com/krystalan/DRT-o1

要約(オリジナル)

Recently, O1-like models have emerged as representative examples, illustrating the effectiveness of long chain-of-thought (CoT) in reasoning tasks such as math and coding tasks. In this paper, we introduce DRT-o1, an attempt to bring the success of long CoT to neural machine translation (MT). Specifically, in view of the literature books that might involve similes and metaphors, translating these texts to a target language is very difficult in practice due to cultural differences. In such cases, literal translation often fails to convey the intended meaning effectively. Even for professional human translators, considerable thought must be given to preserving semantics throughout the translation process. To simulate LLMs’ long thought ability in MT, we first mine sentences containing similes or metaphors from existing literature books, and then develop a multi-agent framework to translate these sentences via long thought. In the multi-agent framework, a translator is used to iteratively translate the source sentence under the suggestions provided by an advisor. To ensure the effectiveness of the long thoughts, an evaluator is also employed to quantify the translation in each round. In this way, we collect tens of thousands of long-thought MT data, which is used to train our DRT-o1. Using Qwen2.5 and LLama-3.1 as the backbones, DRT-o1 models can learn the thought process during machine translation, and outperform vanilla LLMs as well as existing O1-like LLMs, showing their effectiveness The project is available at https://github.com/krystalan/DRT-o1

arxiv情報

著者 Jiaan Wang,Fandong Meng,Yunlong Liang,Jie Zhou
発行日 2024-12-30 16:29:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク