要約
英語の技術用語の迅速な拡大は、特に人工知能や量子コンピューティングなどの急速に発展している分野で、従来の専門家ベースの標準化に大きな課題をもたらします。
手動アプローチは、一貫した多言語用語を維持する際の困難に直面しています。
これに対処するために、クロスリングのセマンティックアライメントを通じて用語の検証と標準化を自動化するために設計された大規模な言語モデル(LLM)を搭載した逆翻訳フレームワークであるLLM-BTを導入します。
(1)用語レベルの一貫性の検証:英語 – >中間言語 – >英語の逆翻訳を実行することにより、LLM-BTは異なるモデル(GPT-4、Deepseek、Grokなど)にわたって高用語の一貫性を達成します。
ケーススタディは、条件の90%以上が正確または意味的に保存されていることを示しています。
(2)マルチパス検証ワークフロー:取得 – > generate-> verify->最適化として記述された新しいパイプラインを開発します。
BLEUスコアとタームレベルの精度は、強力な横断的堅牢性を示しており、BLEUスコアは0.45を超え、ポルトガルの用語の精度は100%に達します。
(3)セマンティック埋め込みとしての逆翻訳:意味の潜在的な軌跡を明らかにする動的なセマンティック埋め込みの形として、背面翻訳を再解釈します。
静的な埋め込みとは対照的に、LLM-BTは、モデルの進化によって形作られた透明なパスベースの埋め込みを提供します。
この再構成は、多言語用語の標準化のためのアクティブなメカニズムとして背面翻訳を位置付け、機械と人間間のコラボレーションを促進する – マシンは意味的な完全性を保持し、人間は文化的解釈を提供します。
要約(オリジナル)
The rapid expansion of English technical terminology presents a significant challenge to traditional expert-based standardization, particularly in rapidly developing areas such as artificial intelligence and quantum computing. Manual approaches face difficulties in maintaining consistent multilingual terminology. To address this, we introduce LLM-BT, a back-translation framework powered by large language models (LLMs) designed to automate terminology verification and standardization through cross-lingual semantic alignment. Our key contributions include: (1) term-level consistency validation: by performing English -> intermediate language -> English back-translation, LLM-BT achieves high term consistency across different models (such as GPT-4, DeepSeek, and Grok). Case studies demonstrate over 90 percent of terms are preserved either exactly or semantically; (2) multi-path verification workflow: we develop a novel pipeline described as Retrieve -> Generate -> Verify -> Optimize, which supports both serial paths (e.g., English -> Simplified Chinese -> Traditional Chinese -> English) and parallel paths (e.g., English -> Chinese / Portuguese -> English). BLEU scores and term-level accuracy indicate strong cross-lingual robustness, with BLEU scores exceeding 0.45 and Portuguese term accuracy reaching 100 percent; (3) back-translation as semantic embedding: we reinterpret back-translation as a form of dynamic semantic embedding that uncovers latent trajectories of meaning. In contrast to static embeddings, LLM-BT offers transparent, path-based embeddings shaped by the evolution of the models. This reframing positions back-translation as an active mechanism for multilingual terminology standardization, fostering collaboration between machines and humans – machines preserve semantic integrity, while humans provide cultural interpretation.
arxiv情報
著者 | Li Weigang,Pedro Carvalho Brom |
発行日 | 2025-06-11 17:04:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google