Translation in the Wild

要約

大規模な言語モデル(LLM)は、とりわけ翻訳に優れており、ゼロおよび少数のショット設定で多くの言語ペアの競争力のあるパフォーマンスを示しています。
しかし、専用のニューラルマシン翻訳モデルとは異なり、LLMは翻訳関連の目的で訓練されていません。
彼らの驚くべき翻訳能力を説明するものは何ですか?
これらの能力は、トレーニングデータにおける「偶発的なバイリンガリズム」(Briakou etal。2023)に基づいていますか?
指示の調整はそれに貢献しますか?
LLMは、単一のコンテキストウィンドウに収まる可能性が低いインターネットの異なるコーナーから、意味的に同一または類似した単一言語の内容を調整および活用することができますか?
私は、このトピックについていくつかの考察を提供し、最近の研究とユーザーエクスペリエンスの高まりから知らされています。
私の作業仮説は、LLMSの翻訳能力は、モデルによって異なる方法で内在化される可能性のある2つの異なるタイプのプリトレーニングデータに由来するというものです。
「二重性」仮説を経験的にテストする見込みと、深い学習の時代における翻訳、人間と機械の再概念化に対するその意味について説明します。

要約(オリジナル)

Large Language Models (LLMs) excel in translation among other things, demonstrating competitive performance for many language pairs in zero- and few-shot settings. But unlike dedicated neural machine translation models, LLMs are not trained on any translation-related objective. What explains their remarkable translation abilities? Are these abilities grounded in ‘incidental bilingualism’ (Briakou et al. 2023) in training data? Does instruction tuning contribute to it? Are LLMs capable of aligning and leveraging semantically identical or similar monolingual contents from different corners of the internet that are unlikely to fit in a single context window? I offer some reflections on this topic, informed by recent studies and growing user experience. My working hypothesis is that LLMs’ translation abilities originate in two different types of pre-training data that may be internalized by the models in different ways. I discuss the prospects for testing the ‘duality’ hypothesis empirically and its implications for reconceptualizing translation, human and machine, in the age of deep learning.

arxiv情報

著者 Yuri Balashov
発行日 2025-05-29 15:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク