Investigating the translation capabilities of Large Language Models trained on parallel data only

要約

近年、大規模言語モデル (LLM) は、機械翻訳を含む幅広い自然言語処理 (NLP) タスクにわたって卓越した熟練度を示しています。
しかし、以前の方法は主に命令の微調整や継続的な事前トレーニングなどの反復プロセスに依存しており、並列データのみに基づいて LLM をトレーニングするという課題は未解明のままでした。
この作業では、カタロニア語中心の並列例のみでトレーニングされた、さまざまな語彙サイズ (32k、128k、および 256k) を特徴とする 3 つの 2B LLM のコレクションである PLUME (並列言語モデル) を紹介します。
これらのモデルは、16 の教師付き変換方向と 56 のゼロショット変換方向で以前のエンコーダ/デコーダ アーキテクチャと同等のパフォーマンスを発揮します。
この一連のモデルを利用して、LLM の翻訳機能を徹底的に調査し、そのパフォーマンス、プロンプトのさまざまな要素の影響、および言語間の表現空間を調査します。

要約(オリジナル)

In recent years, Large Language Models (LLMs) have demonstrated exceptional proficiency across a broad spectrum of Natural Language Processing (NLP) tasks, including Machine Translation. However, previous methods predominantly relied on iterative processes such as instruction fine-tuning or continual pre-training, leaving unexplored the challenges of training LLMs solely on parallel data. In this work, we introduce PLUME (Parallel Language Model), a collection of three 2B LLMs featuring varying vocabulary sizes (32k, 128k, and 256k) trained exclusively on Catalan-centric parallel examples. These models perform comparably to previous encoder-decoder architectures on 16 supervised translation directions and 56 zero-shot ones. Utilizing this set of models, we conduct a thorough investigation into the translation capabilities of LLMs, probing their performance, the impact of the different elements of the prompt, and their cross-lingual representation space.

arxiv情報

著者 Javier García Gilabert,Carlos Escolano,Aleix Sant Savall,Francesca De Luca Fornaciari,Audrey Mash,Xixian Liao,Maite Melero
発行日 2024-06-13 14:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク