要約
社会的相互作用のグローバル化により、ソーシャルネットワークサービス(SNS)の機械翻訳(MT)の必要性が高まりましたが、伝統的なモデルは、ミーム、スラング、ポップカルチャーの参照などの文化的に微妙なコンテンツと格闘しています。
大規模な言語モデル(LLM)には高度な汎用翻訳がありますが、SNS固有のコンテンツのパフォーマンスは、専門的なトレーニングデータと評価ベンチマークが不十分なため、依然として限られたままです。
このペーパーでは、SNS翻訳に合わせた72B LLMであるRedtransを紹介します。3つのイノベーションを通じて開発された新しいデータセットで訓練されています。
(2)書き換えられた優先最適化(REPO)、専門家の注釈を通じて誤った優先ペアを識別および修正するアルゴリズム、信頼できる優先順位コーパを構築するアルゴリズム。
(3)SNS翻訳の最初のベンチマークであるRedtrans-Bench、ユーモアのローカリゼーション、絵文字セマンティクス、ミーム適応などの現象の評価。
実験では、Redtransが最先端のLLMよりも優れていることが示されています。
その上、Redtransはすでに現実世界の生産環境に展開されており、ドメイン固有の適応が、一般的な翻訳システムと文化的に接地された翻訳システムのギャップを効果的に橋渡しすることを実証しています。
要約(オリジナル)
The globalization of social interactions has heightened the need for machine translation (MT) on Social Network Services (SNS), yet traditional models struggle with culturally nuanced content like memes, slang, and pop culture references. While large language models (LLMs) have advanced general-purpose translation, their performance on SNS-specific content remains limited due to insufficient specialized training data and evaluation benchmarks. This paper introduces RedTrans, a 72B LLM tailored for SNS translation, trained on a novel dataset developed through three innovations: (1) Supervised Finetuning with Dual-LLM Back-Translation Sampling, an unsupervised sampling method using LLM-based back-translation to select diverse data for large-scale finetuning; (2) Rewritten Preference Optimization (RePO), an algorithm that identifies and corrects erroneous preference pairs through expert annotation, building reliable preference corpora; and (3) RedTrans-Bench, the first benchmark for SNS translation, evaluating phenomena like humor localization, emoji semantics, and meme adaptation. Experiments show RedTrans outperforms state-of-the-art LLMs. Besides, RedTrans has already been deployed in a real-world production environment, demonstrating that domain-specific adaptation, effectively bridges the gap between generic and culturally grounded translation systems.
arxiv情報
著者 | Hongcheng Guo,Fei Zhao,Shaosheng Cao,Xinze Lyu,Ziyan Liu,Yue Wang,Boyang Wang,Zhoujun Li,Chonggang Lu,Zhe Xu,Yao Hu |
発行日 | 2025-04-10 16:24:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google