要約
大規模言語モデル(LLM)の登場は、機械翻訳(MT)の状況を大きく変えてきた。特に、十分なパラレルコーパス、言語ツール、計算インフラがない低リソース言語やドメインにおいて顕著である。本サーベイでは、LLMをMTに活用するための最近の進歩を包括的に紹介する。リソースの乏しい環境にも効果的に適応できるような、少数ショットのプロンプティング、クロスリンガル・トランスファー、パラメータ効率の良い微調整などのテクニックを分析する。また、逆翻訳や語彙増強など、LLMを用いた合成データ生成戦略についても検討する。さらに、様々な言語ペアにおいて、LLMベースの翻訳と従来のエンコーダ・デコーダモデルを比較し、それぞれの長所と限界を明らかにする。また、幻覚、評価の矛盾、遺伝的なバイアスなどの永続的な課題について論じるとともに、LLMに基づく新たな翻訳品質評価指標についても評価する。この調査は、大規模な生成モデルの時代に、堅牢で包括的かつスケーラブルなMTシステムを構築するための実用的な洞察を提供し、将来の方向性を概説する。
要約(オリジナル)
The advent of Large Language Models (LLMs) has significantly reshaped the landscape of machine translation (MT), particularly for low-resource languages and domains that lack sufficient parallel corpora, linguistic tools, and computational infrastructure. This survey presents a comprehensive overview of recent progress in leveraging LLMs for MT. We analyze techniques such as few-shot prompting, cross-lingual transfer, and parameter-efficient fine-tuning that enable effective adaptation to under-resourced settings. The paper also explores synthetic data generation strategies using LLMs, including back-translation and lexical augmentation. Additionally, we compare LLM-based translation with traditional encoder-decoder models across diverse language pairs, highlighting the strengths and limitations of each. We discuss persistent challenges such as hallucinations, evaluation inconsistencies, and inherited biases while also evaluating emerging LLM-driven metrics for translation quality. This survey offers practical insights and outlines future directions for building robust, inclusive, and scalable MT systems in the era of large-scale generative models.
arxiv情報
| 著者 | Baban Gain,Dibyanayan Bandyopadhyay,Asif Ekbal |
| 発行日 | 2025-04-03 13:30:35+00:00 |
| arxivサイト | arxiv_id(pdf) |