Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

要約

この作業では、QWEN3 Foundationモデルに基づいて構築されたテキスト埋め込みおよび再ランキング機能で、その前身であるGTE-QWENシリーズに対する大幅な進歩であるQWEN3 Embeddingシリーズを紹介します。
多言語テキストの理解と生成におけるQWEN3 LLMSの堅牢な機能を活用して、当社の革新的なマルチステージトレーニングパイプラインは、大規模な監督なしの事前トレーニングと、高品質のデータセットでの監視された微調整を組み合わせています。
効果的なモデルのマージ戦略により、QWEN3埋め込みシリーズの堅牢性と適応性がさらに保証されます。
トレーニングプロセス中、QWEN3 LLMSはバックボーンモデルとしてだけでなく、複数のドメインと言語で高品質でリッチで多様なトレーニングデータを合成する上で重要な役割を果たし、トレーニングパイプラインを強化します。
QWEN3 Embeddingシリーズは、埋め込みタスクと再ランキングの両方にモデルサイズ(0.6b、4b、8b)のスペクトルを提供し、ユーザーが効率または効果のために最適化できる多様な展開シナリオに対処します。
経験的評価は、QWEN3エンミングシリーズが多様なベンチマーク全体で最先端の結果を達成することを示しています。
特に、テキスト埋め込みのための多言語評価ベンチマークMTEB、およびコード検索、横断的検索、多言語検索などのさまざまな検索タスクに優れています。
再現性を促進し、コミュニティ主導の研究開発を促進するために、QWEN3埋め込みモデルはApache 2.0ライセンスの下で公開されています。

要約(オリジナル)

In this work, we introduce the Qwen3 Embedding series, a significant advancement over its predecessor, the GTE-Qwen series, in text embedding and reranking capabilities, built upon the Qwen3 foundation models. Leveraging the Qwen3 LLMs’ robust capabilities in multilingual text understanding and generation, our innovative multi-stage training pipeline combines large-scale unsupervised pre-training with supervised fine-tuning on high-quality datasets. Effective model merging strategies further ensure the robustness and adaptability of the Qwen3 Embedding series. During the training process, the Qwen3 LLMs serve not only as backbone models but also play a crucial role in synthesizing high-quality, rich, and diverse training data across multiple domains and languages, thus enhancing the training pipeline. The Qwen3 Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both embedding and reranking tasks, addressing diverse deployment scenarios where users can optimize for either efficiency or effectiveness. Empirical evaluations demonstrate that the Qwen3 Embedding series achieves state-of-the-art results across diverse benchmarks. Notably, it excels on the multilingual evaluation benchmark MTEB for text embedding, as well as in various retrieval tasks, including code retrieval, cross-lingual retrieval and multilingual retrieval. To facilitate reproducibility and promote community-driven research and development, the Qwen3 Embedding models are publicly available under the Apache 2.0 license.

arxiv情報

著者 Yanzhao Zhang,Mingxin Li,Dingkun Long,Xin Zhang,Huan Lin,Baosong Yang,Pengjun Xie,An Yang,Dayiheng Liu,Junyang Lin,Fei Huang,Jingren Zhou
発行日 2025-06-05 15:49:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models はコメントを受け付けていません

RELIC: Evaluating Compositional Instruction Following via Language Recognition

要約

大規模な言語モデル(LLM)は、入力や出力の例なしで、コンテキストで提供されるタスクの仕様のみに基づいてタスクを実行することがますます期待されています。
この能力は、次の指示と呼ばれます。
言語認識を使用した後に命令を評価するための言語内の文字(RELIC)フレームワークの認識を紹介します。文字列が正式な文法によって生成されるかどうかを判断するタスク。
LLMSのコンテキストを使用する能力の多くの標準的な評価とは異なり、このタスクでは、コンテキストから取得された多数の指示(文法制作)を一緒に作成する必要があります。
言語は合成であるため、LLMSのスキルが向上するにつれてタスクを複雑にすることができ、新しいインスタンスを自動的に生成して、データの汚染を軽減できます。
正式なLLMSをRelicで評価し、文法と個々の例の文字列の複雑さからその精度を確実に予測できること、そして現在利用可能な最も先進的なLLMでさえ、理論的な期待に沿って、より複雑な文法とサンプルでほぼチャンスのパフォーマンスを示していることがわかります。
また、LLMSがますます困難な推論タスクを解決しようとする方法を診断するためにRelicを使用して、言語認識タスクの複雑さが増加するにつれて、モデルは複雑な指示に従うのではなく、浅いヒューリスティックに依存するように切り替えることがわかります。

要約(オリジナル)

Large language models (LLMs) are increasingly expected to perform tasks based only on a specification of the task provided in context, without examples of inputs and outputs; this ability is referred to as instruction following. We introduce the Recognition of Languages In-Context (RELIC) framework to evaluate instruction following using language recognition: the task of determining if a string is generated by formal grammar. Unlike many standard evaluations of LLMs’ ability to use their context, this task requires composing together a large number of instructions (grammar productions) retrieved from the context. Because the languages are synthetic, the task can be increased in complexity as LLMs’ skills improve, and new instances can be automatically generated, mitigating data contamination. We evaluate state-of-the-art LLMs on RELIC and find that their accuracy can be reliably predicted from the complexity of the grammar and the individual example strings, and that even the most advanced LLMs currently available show near-chance performance on more complex grammars and samples, in line with theoretical expectations. We also use RELIC to diagnose how LLMs attempt to solve increasingly difficult reasoning tasks, finding that as the complexity of the language recognition task increases, models switch to relying on shallow heuristics instead of following complex instructions.

arxiv情報

著者 Jackson Petty,Michael Y. Hu,Wentao Wang,Shauli Ravfogel,William Merrill,Tal Linzen
発行日 2025-06-05 16:17:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RELIC: Evaluating Compositional Instruction Following via Language Recognition はコメントを受け付けていません

MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration

要約

近年、マルチモーダルの大手言語モデル(MLLM)は大きな進歩を遂げていますが、マルチモーダル推論には固有の課題に直面し続けています。
モデルの信頼の推定に関する以前の作業は、トレーニングとキャリブレーションの全体的な反応に焦点を当てる傾向がありますが、各推論ステップに対する信頼を評価することができず、望ましくない幻覚雪玉につながります。
この作業では、推論の信頼性キャリブレーションを通じてMLLMの知識境界認識を促進する新しいフレームワークであるMmboundaryを提示します。
これを達成するために、MLLM推論プロセスの各ステップで信頼性を推定するために、補完的なテキストおよびクロスモーダルの自己報酬信号を組み込むことを提案します。
最初の信頼表現ウォームアップのためのこの自己報酬の信頼性推定シグナルのセットで、監視された微調整MLLMに加えて、モデルの知識をさらに調整し、各推論ステップで信頼を較正するための複数の報酬機能を備えた強化学習段階を導入し、推論チェーンの自己修正を強化します。
経験的結果は、Mmboundaryが多様なドメインデータセットとメトリックにわたって既存の方法を大幅に上回り、マルチモーダル信頼キャリブレーションエラーが平均7.5%減少し、タスクパフォ​​ーマンスの最大8.3%の改善を達成することを示しています。

要約(オリジナル)

In recent years, multimodal large language models (MLLMs) have made significant progress but continue to face inherent challenges in multimodal reasoning, which requires multi-level (e.g., perception, reasoning) and multi-granular (e.g., multi-step reasoning chain) advanced inferencing. Prior work on estimating model confidence tends to focus on the overall response for training and calibration, but fails to assess confidence in each reasoning step, leading to undesirable hallucination snowballing. In this work, we present MMBoundary, a novel framework that advances the knowledge boundary awareness of MLLMs through reasoning step confidence calibration. To achieve this, we propose to incorporate complementary textual and cross-modal self-rewarding signals to estimate confidence at each step of the MLLM reasoning process. In addition to supervised fine-tuning MLLM on this set of self-rewarded confidence estimation signal for initial confidence expression warm-up, we introduce a reinforcement learning stage with multiple reward functions for further aligning model knowledge and calibrating confidence at each reasoning step, enhancing reasoning chain self-correction. Empirical results show that MMBoundary significantly outperforms existing methods across diverse domain datasets and metrics, achieving an average of 7.5% reduction in multimodal confidence calibration errors and up to 8.3% improvement in task performance.

arxiv情報

著者 Zhitao He,Sandeep Polisetty,Zhiyuan Fan,Yuchen Huang,Shujin Wu,Yi R. Fung
発行日 2025-06-05 16:19:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration はコメントを受け付けていません

The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

要約

大規模な言語モデル(LLM)は、通常、膨大な量の免許のないテキストで訓練されています。これは、知的財産の侵害と倫理的懸念の可能性があるため、精査につながった実践です。
公然とライセンスされたテキストでのLLMSのトレーニングは、これらの問題に対処するための最初のステップを提示しますが、以前のデータ収集の取り組みにより、パフォーマンスのLLMを生成するには小さすぎるまたは低品質のデータセットが得られました。
このギャップに対処するために、LLM Pretraining用に設計された公然とライセンスされたテキストの8テラバイトコレクションであるCommon Pile V0.1を収集、キュレート、およびリリースします。
一般的なパイルは、研究論文、コード、本、百科事典、教育資料、オーディオトランスクリプトなどを含む多様なドメインにまたがる30のソースからのコンテンツで構成されています。
重要なことは、それぞれ1兆トークンと2兆トークンで訓練された、Comma V0.1-1TとComma V0.1-2Tのテキストで2つの70億パラメーターLLMをトレーニングすることにより、努力を検証します。
どちらのモデルも、LLAMA 1や2 7bなどの同様の計算予算で訓練されたLLMSに競争力のあるパフォーマンスを実現します。
Common Pile V0.1自体をリリースすることに加えて、Comma V0.1モデルのトレーニング混合とチェックポイントだけでなく、その作成で使用されるコードもリリースします。

要約(オリジナル)

Large language models (LLMs) are typically trained on enormous quantities of unlicensed text, a practice that has led to scrutiny due to possible intellectual property infringement and ethical concerns. Training LLMs on openly licensed text presents a first step towards addressing these issues, but prior data collection efforts have yielded datasets too small or low-quality to produce performant LLMs. To address this gap, we collect, curate, and release the Common Pile v0.1, an eight terabyte collection of openly licensed text designed for LLM pretraining. The Common Pile comprises content from 30 sources that span diverse domains including research papers, code, books, encyclopedias, educational materials, audio transcripts, and more. Crucially, we validate our efforts by training two 7 billion parameter LLMs on text from the Common Pile: Comma v0.1-1T and Comma v0.1-2T, trained on 1 and 2 trillion tokens respectively. Both models attain competitive performance to LLMs trained on unlicensed text with similar computational budgets, such as Llama 1 and 2 7B. In addition to releasing the Common Pile v0.1 itself, we also release the code used in its creation as well as the training mixture and checkpoints for the Comma v0.1 models.

arxiv情報

著者 Nikhil Kandpal,Brian Lester,Colin Raffel,Sebastian Majstorovic,Stella Biderman,Baber Abbasi,Luca Soldaini,Enrico Shippole,A. Feder Cooper,Aviya Skowron,John Kirchenbauer,Shayne Longpre,Lintang Sutawika,Alon Albalak,Zhenlin Xu,Guilherme Penedo,Loubna Ben Allal,Elie Bakouch,John David Pressman,Honglu Fan,Dashiell Stander,Guangyu Song,Aaron Gokaslan,Tom Goldstein,Brian R. Bartoldson,Bhavya Kailkhura,Tyler Murray
発行日 2025-06-05 16:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text はコメントを受け付けていません

Improving Low-Resource Morphological Inflection via Self-Supervised Objectives

要約

自己教師の目的は、大規模な非標識データを活用することにより、NLPの大きな進歩を促進していますが、そのようなリソースは世界の多くの言語ではほとんどありません。
驚くべきことに、それらはキャラクターレベルのタスクについてはあまり探求されていません。このタスクでは、少量のデータが有益である可能性があります。
極端に低リソースの設定で、言語文書に非常に関連する文字レベルのタスクである形態学的変曲のための自己監視補助タスクの有効性を調査します。
自動エンコードは、非標識データが非常に限られている場合、最高のパフォーマンスを生成しますが、キャラクターマスク言語モデリング(CMLM)はデータの可用性が向上するにつれてより効果的になります。
より強い誘導バイアスを持つ目標はモデルの予測に直感的に影響しますが、標準のCMLMを上回ることはめったにありません。
ただし、既知の形態素境界に基づいたサンプリングマスクは、パフォーマンスを一貫して改善し、低リソースの形態モデリングの有望な方向を強調します。

要約(オリジナル)

Self-supervised objectives have driven major advances in NLP by leveraging large-scale unlabeled data, but such resources are scarce for many of the world’s languages. Surprisingly, they have not been explored much for character-level tasks, where smaller amounts of data have the potential to be beneficial. We investigate the effectiveness of self-supervised auxiliary tasks for morphological inflection — a character-level task highly relevant for language documentation — in extremely low-resource settings, training encoder-decoder transformers for 19 languages and 13 auxiliary objectives. Autoencoding yields the best performance when unlabeled data is very limited, while character masked language modeling (CMLM) becomes more effective as data availability increases. Though objectives with stronger inductive biases influence model predictions intuitively, they rarely outperform standard CMLM. However, sampling masks based on known morpheme boundaries consistently improves performance, highlighting a promising direction for low-resource morphological modeling.

arxiv情報

著者 Adam Wiemerslage,Katharina von der Wense
発行日 2025-06-05 16:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Improving Low-Resource Morphological Inflection via Self-Supervised Objectives はコメントを受け付けていません

Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

要約

トランスモデルは、二次時間と線形メモリの複雑さのために、長いコンテキスト推論と格闘しています。
再発メモリ変圧器(RMTS)は、漸近コストを線形時間と一定のメモリ使用量に削減することにより、ソリューションを提供します。
ただし、メモリの更新メカニズムは順次実行につながり、パフォーマンスボトルネックを引き起こします。
正確な再発を維持しながら、RMTのセグメント間の並列性を解き放つスケジューリングスキームである斜めのバッチを導入します。
このアプローチは、順次制約を排除し、複雑なバッチとパイプラインの技術を使用しない単一の長いコンテキスト入力でも効率的なGPU推論を可能にします。
この手法は純粋にランタイム計算の再注文であるため、既存のRMTモデルは再訓練なしでそれを採用します。
Llama-1B ARMTモデルに適用される対角線バッチは、131,072トークンシーケンスでのシーケンシャルRMT実装で標準のフルアテンションで3.3倍のスピードアップと1.8倍のスピードアップをもたらします。
連続したボトルネックを削除することにより、対角線バッチは推論コストと遅延を削減し、それによりRMTを実世界の長いコンテキストアプリケーションの実用的なソリューションとして強化します。

要約(オリジナル)

Transformer models struggle with long-context inference due to their quadratic time and linear memory complexity. Recurrent Memory Transformers (RMTs) offer a solution by reducing the asymptotic cost to linear time and constant memory usage. However, their memory update mechanism leads to sequential execution, causing a performance bottleneck. We introduce Diagonal Batching, a scheduling scheme that unlocks parallelism across segments in RMTs while preserving exact recurrence. This approach eliminates the sequential constraint, enabling efficient GPU inference even for single long-context inputs without complex batching and pipelining techniques. Because the technique is purely a run-time computation reordering, existing RMT models adopt it with no retraining. Applied to a LLaMA-1B ARMT model, Diagonal Batching yields a 3.3x speedup over standard full-attention LLaMA-1B and a 1.8x speedup over the sequential RMT implementation on 131,072-token sequences. By removing sequential bottleneck, Diagonal Batching reduces inference cost and latency, thereby strengthening RMTs as a practical solution for real-world, long-context applications.

arxiv情報

著者 Danil Sivtsov,Ivan Rodkin,Gleb Kuzmin,Yuri Kuratov,Ivan Oseledets
発行日 2025-06-05 16:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts はコメントを受け付けていません

Towards a Unified System of Representation for Continuity and Discontinuity in Natural Language

要約

構文の不連続性は、構成要素の一部ではない要素を挿入するため、構成要素が複数の部分に分割される文法現象です。
これは、トルコ語、ロシア語、日本、日本、ワールピリ、ナバホ、ホピ、dyirbal、yidinyなど、世界中の多くの言語で観察されています。
それぞれのフレームワーク/形式主義は、独立した非変換分析システムと広く見なされてきました。
この論文では、3つの形式主義、特に選挙区、その依存関係の依存関係(DG)の広く使用されている概念(DG)の3つの形式的文法(PSG)を考慮に入れて、自然言語の構造の連続性と不連続性の両方の統一された表現システムを提案します。
これら3つの文法形式に言語構造の表現を組み込んだ統一された数学的派生を通して、不連続な表現と連続構造を分析できることを示しようとします。

要約(オリジナル)

Syntactic discontinuity is a grammatical phenomenon in which a constituent is split into more than one part because of the insertion of an element which is not part of the constituent. This is observed in many languages across the world such as Turkish, Russian, Japanese, Warlpiri, Navajo, Hopi, Dyirbal, Yidiny etc. Different formalisms/frameworks in current linguistic theory approach the problem of discontinuous structures in different ways. Each framework/formalism has widely been viewed as an independent and non-converging system of analysis. In this paper, we propose a unified system of representation for both continuity and discontinuity in structures of natural languages by taking into account three formalisms, in particular, Phrase Structure Grammar (PSG) for its widely used notion of constituency, Dependency Grammar (DG) for its head-dependent relations, and Categorial Grammar (CG) for its focus on functor-argument relations. We attempt to show that discontinuous expressions as well as continuous structures can be analysed through a unified mathematical derivation incorporating the representations of linguistic structure in these three grammar formalisms.

arxiv情報

著者 Ratna Kandala,Prakash Mondal
発行日 2025-06-05 16:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards a Unified System of Representation for Continuity and Discontinuity in Natural Language はコメントを受け付けていません

CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection

要約

幻覚検出に対する一般的なアプローチは、それを自然言語推論(NLI)タスクとしてキャストし、多くの場合、LLMを使用して、生成されたテキストが対応する参照テキストによって伴うかどうかを分類します。
含意分類は複雑な推論タスクであるため、COTの推論や最近の推論モデルの明示的な「思考」のように、LLMが明示的な推論プロセスを生成することで利益を得ることができると予想されます。
この作業では、このようなモデルを導き、体系的かつ包括的な推論プロセスを実行することを提案します – テキストをより小さな事実に分解し、各事実のソースに証拠を見つけます – モデルは、より細かい粒度で正確な招待決定を実行し、パフォーマンスの向上につながります。
そのために、(i)請求の分解、(ii)サブクレームの帰属および伴う分類、および(iii)集計分類で構成される3段階の推論プロセスを定義します。
この推論フレームワークに従って、中間推論ステップの品質を測定するいくつかのメトリックで構成される分析スキームを紹介します。

要約(オリジナル)

A common approach to hallucination detection casts it as a natural language inference (NLI) task, often using LLMs to classify whether the generated text is entailed by corresponding reference texts. Since entailment classification is a complex reasoning task, one would expect that LLMs could benefit from generating an explicit reasoning process, as in CoT reasoning or the explicit “thinking” of recent reasoning models. In this work, we propose that guiding such models to perform a systematic and comprehensive reasoning process — one that both decomposes the text into smaller facts and also finds evidence in the source for each fact — allows models to execute much finer-grained and accurate entailment decisions, leading to increased performance. To that end, we define a 3-step reasoning process, consisting of (i) claim decomposition, (ii) sub-claim attribution and entailment classification, and (iii) aggregated classification, showing that such guided reasoning indeed yields improved hallucination detection. Following this reasoning framework, we introduce an analysis scheme, consisting of several metrics that measure the quality of the intermediate reasoning steps, which provided additional empirical evidence for the improved quality of our guided reasoning scheme.

arxiv情報

著者 Ron Eliav,Arie Cattan,Eran Hirsch,Shahaf Bassan,Elias Stengel-Eskin,Mohit Bansal,Ido Dagan
発行日 2025-06-05 17:02:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection はコメントを受け付けていません

GRAF: Graph Retrieval Augmented by Facts for Romanian Legal Multi-Choice Question Answering

要約

事前に訓練された言語モデル(PLMS)は、近年驚くべきパフォーマンスを示しており、NLPの研究と産業の新しいパラダイムを設定しています。
法的領域は、そのテキストの性質のために、NLPコミュニティからある程度の注目を集めています。
このドメインからのいくつかのタスクは、質問回答(QA)タスクで表されます。
この作業では、低リソース言語の法的領域の複数選択QA(MCQA)を探ります。
この作業の貢献は多倍です。
最初に、3つの異なる試験と合計10,836の質問を含む最初の公然と利用可能なルーマニアの法的MCQAデータセットであるJuroを紹介します。
このデータセットに加えて、763時間のスパンから修正された合計93の異なるドキュメントを持つ法律の組織化されたコーパスであるCrolを紹介します。
さらに、私たちはルーマニア語の知識グラフ(kg)であるローログを提案した最初の人物であり、このkgは前述のコーパスから派生しています。
最後に、MCQAの新しいアプローチを提案します。これは、事実(GRAF)によって増強されたグラフ検索(GRAF)を提案します。これは、一般に受け入れられているSOTAメソッドで競争結果を達成し、ほとんどの設定でそれらを超えています。

要約(オリジナル)

Pre-trained Language Models (PLMs) have shown remarkable performances in recent years, setting a new paradigm for NLP research and industry. The legal domain has received some attention from the NLP community partly due to its textual nature. Some tasks from this domain are represented by question-answering (QA) tasks. This work explores the legal domain Multiple-Choice QA (MCQA) for a low-resource language. The contribution of this work is multi-fold. We first introduce JuRO, the first openly available Romanian legal MCQA dataset, comprising three different examinations and a number of 10,836 total questions. Along with this dataset, we introduce CROL, an organized corpus of laws that has a total of 93 distinct documents with their modifications from 763 time spans, that we leveraged in this work for Information Retrieval (IR) techniques. Moreover, we are the first to propose Law-RoG, a Knowledge Graph (KG) for the Romanian language, and this KG is derived from the aforementioned corpus. Lastly, we propose a novel approach for MCQA, Graph Retrieval Augmented by Facts (GRAF), which achieves competitive results with generally accepted SOTA methods and even exceeds them in most settings.

arxiv情報

著者 Cristian-George Crăciun,Răzvan-Alexandru Smădu,Dumitru-Clementin Cercel,Mihaela-Claudia Cercel
発行日 2025-06-05 17:37:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GRAF: Graph Retrieval Augmented by Facts for Romanian Legal Multi-Choice Question Answering はコメントを受け付けていません

Is LLM the Silver Bullet to Low-Resource Languages Machine Translation?

要約

低リソース言語(LRL)は、限られた言語リソースと標準的なデータセットでの過小評価により、自然言語処理に大きな課題を提示します。
大規模な言語モデル(LLM)とニューラルマシンの翻訳の最近の進歩により、高リソース言語の翻訳機能が大幅に改善されましたが、LRLのパフォーマンス格差は持続し、特にプライバシーに敏感でリソースに制約のあるシナリオに影響を与えます。
このペーパーでは、Flores-200ベンチマークを使用して200の言語で現在のLLMSを体系的に評価し、LRL翻訳機能における制限を実証します。
また、ニュース記事やバイリンガル辞書などの代替データソースを探り、大規模な訓練を受けた教師モデルからの知識の蒸留が、LRL翻訳タスクでの小さなLLMSのパフォーマンスを大幅に改善できる方法を示します。
たとえば、このアプローチは、LLAMA-3.2-3Bの0.36から0.89の検証セットのLLM-A-A-JudgeスコアでEN-> LBを増加させます。
さらに、さまざまな微調整構成を調べ、最適なデータスケール、トレーニング効率、および研究中のモデルの一般化能力の保存に関する実用的な洞察を提供します。

要約(オリジナル)

Low-Resource Languages (LRLs) present significant challenges in natural language processing due to their limited linguistic resources and underrepresentation in standard datasets. While recent advances in Large Language Models (LLMs) and Neural Machine Translation have substantially improved translation capabilities for high-resource languages, performance disparities persist for LRLs, particularly impacting privacy-sensitive and resource-constrained scenarios. This paper systematically evaluates current LLMs in 200 languages using the FLORES-200 benchmark and demonstrates their limitations in LRL translation capability. We also explore alternative data sources, including news articles and bilingual dictionaries, and demonstrate how knowledge distillation from large pre-trained teacher models can significantly improve the performance of small LLMs on LRL translation tasks. For example, this approach increases EN->LB with the LLM-as-a-Judge score on the validation set from 0.36 to 0.89 for Llama-3.2-3B. Furthermore, we examine different fine-tuning configurations, providing practical insights on optimal data scale, training efficiency, and the preservation of generalization capabilities of models under study.

arxiv情報

著者 Yewei Song,Lujun Li,Cedric Lothritz,Saad Ezzini,Lama Sleem,Niccolo Gentile,Radu State,Tegawendé F. Bissyandé,Jacques Klein
発行日 2025-06-05 17:55:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Is LLM the Silver Bullet to Low-Resource Languages Machine Translation? はコメントを受け付けていません