Investigating Continual Pretraining in Large Language Models: Insights and Implications

要約

大規模な言語モデル(LLMS)の継続的な学習(CL)は、モデルを新しい知識に適応させ、動的環境で堅牢性を達成するための効率的で持続可能なトレーニング戦略の開発に焦点を当てた進化するドメインです。
私たちの主な重点は、継続的なドメインに適応する前orainingにあります。これは、以前に学んだ知識を保持しながら、LLMSにさまざまなドメインから新しい情報を統合する機能を装備するために設計されたプロセスです。
既存の作業は、主にダウンストリームタスクまたはトレーニングドメインの限られた選択のために継続的な微調整に集中しているため、LLMの適応性を測定するように設計された新しいベンチマークを導入する新しいベンチマークを導入します。
さらに、学習の有効性と忘却に対するモデルサイズの影響、および新興ドメインの進行と類似性がこれらのモデル内の知識移転にどのように影響するかを調べます。
私たちの調査結果は、いくつかの重要な洞察を明らかにします:(i)継続的な事前トレーニングは、この作業で研究された<1.5bモデルを一貫して改善し、ドメイン適応よりも優れています。 (iii)小さいモデルは、学習と忘却の両方の最も重要なレートを示す継続的な事前トレーニングに特に敏感です(iv)継続的な前削減は、GPT-2ファミリーの下流タスクパフォ​​ーマンスをブーストします。 ドメインのシーケンスはセマンティックな類似性を示し、トレーニングドメインをランダム化すると、それ以外の場合はより良い転送と最終的なパフォーマンスにつながります。 私たちの研究は、LLMSのCLの新しいベンチマークを確立し、知識保持と多様なドメイン全体の移転のより現実的な評価を提供すると仮定します。

要約(オリジナル)

Continual learning (CL) in large language models (LLMs) is an evolving domain that focuses on developing efficient and sustainable training strategies to adapt models to emerging knowledge and achieve robustness in dynamic environments. Our primary emphasis is on continual domain-adaptive pretraining, a process designed to equip LLMs with the ability to integrate new information from various domains while retaining previously learned knowledge. Since existing works concentrate mostly on continual fine-tuning for a limited selection of downstream tasks or training domains, we introduce a new benchmark designed to measure the adaptability of LLMs to changing pretraining data landscapes. We further examine the impact of model size on learning efficacy and forgetting, as well as how the progression and similarity of emerging domains affect the knowledge transfer within these models. Our findings uncover several key insights: (i) continual pretraining consistently improves <1.5B models studied in this work and is also superior to domain adaptation, (ii) larger models always achieve better perplexity than smaller ones when continually pretrained on the same corpus, (iii) smaller models are particularly sensitive to continual pretraining, showing the most significant rates of both learning and forgetting, (iv) continual pretraining boosts downstream task performance of GPT-2 family, (v) continual pretraining enables LLMs to specialize better when the sequence of domains shows semantic similarity while randomizing training domains leads to better transfer and final performance otherwise. We posit that our research establishes a new benchmark for CL in LLMs, providing a more realistic evaluation of knowledge retention and transfer across diverse domains.

arxiv情報

著者 Çağatay Yıldız,Nishaanth Kanna Ravichandran,Nitin Sharma,Matthias Bethge,Beyza Ermis
発行日 2025-02-12 14:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Investigating Continual Pretraining in Large Language Models: Insights and Implications はコメントを受け付けていません

Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models

要約

大規模な言語モデルの劇的な増加(LLMS)パラメーターは、プロンプト、つまりタスクの説明による微調整のないダウンストリームカスタマイズの新しい研究方向につながりました。
これらの迅速なサービス(OpenaiのGPTなど)は多くのビジネスで重要な役割を果たしていますが、これらのサービスの知的特性を損ない、下流の攻撃を引き起こす迅速な漏れに関する懸念が高まっています。
この論文では、迅速な漏れの基礎となるメカニズムを分析します。これは迅速な暗記と呼ばれ、対応する防御戦略を開発します。
迅速な抽出でスケーリング法則を調査することにより、モデルサイズ、プロンプトの長さ、プロンプトの種類など、プロンプト抽出に影響を与える重要な属性を分析します。
次に、LLMがプロンプトをどのように公開するかを説明する2つの仮説を提案します。
1つ目は、困惑、つまりLLMのテキストへの親しみやすさに起因しますが、2つ目は注意マトリックスの単純なトークン変換パスに基づいています。
そのような脅威から防御するために、アラインメントがプロンプトの抽出を損なうことができるかどうかを調査します。
現在のLLMは、GPT-4のような安全アライメントを持つ人でさえ、最も簡単なユーザー攻撃の下でも、迅速な抽出攻撃に対して非常に脆弱であることがわかります。
したがって、Llama2-7BとGPT-3.5の迅速な抽出率の83.8 \%と71.0 \%の低下を達成する調査結果のインスピレーションを得て、いくつかの防衛戦略を提案しました。
ソースコードは、https://github.com/liangzid/promptextractionevalで利用できます。

要約(オリジナル)

The drastic increase of large language models’ (LLMs) parameters has led to a new research direction of fine-tuning-free downstream customization by prompts, i.e., task descriptions. While these prompt-based services (e.g. OpenAI’s GPTs) play an important role in many businesses, there has emerged growing concerns about the prompt leakage, which undermines the intellectual properties of these services and causes downstream attacks. In this paper, we analyze the underlying mechanism of prompt leakage, which we refer to as prompt memorization, and develop corresponding defending strategies. By exploring the scaling laws in prompt extraction, we analyze key attributes that influence prompt extraction, including model sizes, prompt lengths, as well as the types of prompts. Then we propose two hypotheses that explain how LLMs expose their prompts. The first is attributed to the perplexity, i.e. the familiarity of LLMs to texts, whereas the second is based on the straightforward token translation path in attention matrices. To defend against such threats, we investigate whether alignments can undermine the extraction of prompts. We find that current LLMs, even those with safety alignments like GPT-4, are highly vulnerable to prompt extraction attacks, even under the most straightforward user attacks. Therefore, we put forward several defense strategies with the inspiration of our findings, which achieve 83.8\% and 71.0\% drop in the prompt extraction rate for Llama2-7B and GPT-3.5, respectively. Source code is avaliable at https://github.com/liangzid/PromptExtractionEval.

arxiv情報

著者 Zi Liang,Haibo Hu,Qingqing Ye,Yaxin Xiao,Haoyang Li
発行日 2025-02-12 14:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models はコメントを受け付けていません

Examining Spanish Counseling with MIDAS: a Motivational Interviewing Dataset in Spanish

要約

文化的および言語的要因はカウンセリングに大きな影響を与えていますが、自然言語処理の研究では、英語で行われたカウンセリングの会話分析の結果が他の言語に適用されるかどうかをまだ検討していません。
この論文は、この方向への最初のステップを紹介します。
カウンセリングの反省と質問のための専門家の注釈を含むパブリックビデオソースから作成されたカウンセリングデータセットであるMidas(Spaningの動機付けインタビューデータセット)を紹介します。
このデータセットを使用して、英語とスペイン語のカウンセラー行動の言語ベースの違いを調査し、単一言語および多言語の設定で分類器を開発し、カウンセラーの行動コーディングタスクでのアプリケーションを実証します。

要約(オリジナル)

Cultural and language factors significantly influence counseling, but Natural Language Processing research has not yet examined whether the findings of conversational analysis for counseling conducted in English apply to other languages. This paper presents a first step towards this direction. We introduce MIDAS (Motivational Interviewing Dataset in Spanish), a counseling dataset created from public video sources that contains expert annotations for counseling reflections and questions. Using this dataset, we explore language-based differences in counselor behavior in English and Spanish and develop classifiers in monolingual and multilingual settings, demonstrating its applications in counselor behavioral coding tasks.

arxiv情報

著者 Aylin Gunal,Bowen Yi,John Piette,Rada Mihalcea,Verónica Pérez-Rosas
発行日 2025-02-12 14:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Examining Spanish Counseling with MIDAS: a Motivational Interviewing Dataset in Spanish はコメントを受け付けていません

Salamandra Technical Report

要約

この作業では、3つの異なるサイズのオープンソースデコーダーのみの大型言語モデルのスイートであるSalamandraを紹介します:2、7、および400億パラメーター。
モデルは、35のヨーロッパの言語とコードのテキストを含む多言語の非常に多言語データでゼロからトレーニングされました。
当社の慎重にキュレーションされたコーパスは、多種多様なソースから編集されたオープンアクセスデータからのみ作られています。
ベースモデルに加えて、パブリックドメイン命令データで微調整された補足チェックポイントもチャットアプリケーション用にリリースされています。
さらに、マルチモダリティに関する予備的な実験も共有します。これは、サラマンドラファミリーの潜在的なアプリケーションを紹介するための概念実証として機能します。
多言語のベンチマークに関する当社の広範な評価は、サラマンドラには強力な機能があり、同様のサイズのオープンソースモデルと比較すると競争力のあるパフォーマンスを達成することが明らかになりました。
標準のダウンストリームタスクとバイアスと安全性に関連する重要な側面の両方で包括的な評価結果を提供します。この技術レポートを使用すると、設計の選択肢、データキュレーション戦略、評価方法論の背後にあるすべての詳細を共有することにより、オープンサイエンスを促進する予定です。
それに加えて、トレーニングと評価スクリプトを公開できるようにすることにより、通常の練習から逸脱しています。
将来の研究を促進し、商業利用を促進し、それによって大規模な言語モデルのオープンソースのエコシステムに貢献するために、容認できるApache 2.0ライセンスの下ですべてのモデルをリリースします。

要約(オリジナル)

This work introduces Salamandra, a suite of open-source decoder-only large language models available in three different sizes: 2, 7, and 40 billion parameters. The models were trained from scratch on highly multilingual data that comprises text in 35 European languages and code. Our carefully curated corpus is made exclusively from open-access data compiled from a wide variety of sources. Along with the base models, supplementary checkpoints that were fine-tuned on public-domain instruction data are also released for chat applications. Additionally, we also share our preliminary experiments on multimodality, which serve as proof-of-concept to showcase potential applications for the Salamandra family. Our extensive evaluations on multilingual benchmarks reveal that Salamandra has strong capabilities, achieving competitive performance when compared to similarly sized open-source models. We provide comprehensive evaluation results both on standard downstream tasks as well as key aspects related to bias and safety.With this technical report, we intend to promote open science by sharing all the details behind our design choices, data curation strategy and evaluation methodology. In addition to that, we deviate from the usual practice by making our training and evaluation scripts publicly accessible. We release all models under a permissive Apache 2.0 license in order to foster future research and facilitate commercial use, thereby contributing to the open-source ecosystem of large language models.

arxiv情報

著者 Aitor Gonzalez-Agirre,Marc Pàmies,Joan Llop,Irene Baucells,Severino Da Dalt,Daniel Tamayo,José Javier Saiz,Ferran Espuña,Jaume Prats,Javier Aula-Blasco,Mario Mina,Adrián Rubio,Alexander Shvets,Anna Sallés,Iñaki Lacunza,Iñigo Pikabea,Jorge Palomar,Júlia Falcão,Lucía Tormo,Luis Vasquez-Reina,Montserrat Marimon,Valle Ruíz-Fernández,Marta Villegas
発行日 2025-02-12 15:26:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Salamandra Technical Report はコメントを受け付けていません

Explanation based In-Context Demonstrations Retrieval for Multilingual Grammatical Error Correction

要約

文法エラー補正(GEC)は、自然言語テキストの文法、スペル、および意味エラーを修正することを目的としています。
大規模な言語モデル(LLMS)の拡大により、直接的なテキスト生成は徐々にGECメソッドの焦点となり、少数のコンテキスト学習が費用対効果の高いソリューションを提示します。
ただし、入力テキスト間の類似性は必ずしも同様の文法エラーパターンに対応しているわけではないため、効果的なコンテキスト内の例を選択することは困難なままです。
この論文では、この問題に対処するために、自然言語文法誤差説明(GEE)に基づいた新しい検索方法を提案します。
この方法では、テスト入力のGEEを事前に構築されたデータベースサンプルのGEEと一致させることにより、適切な少ないショットデモンストレーションを取得します。ここでは、誤ったサンプルの説明がLLMによって生成されます。
主要なオープンソースとクローズドソースLLMの両方で多言語GEC少ないショット実験を実施しました。
5つの言語にわたる実験は、私たちの方法が、追加のトレーニングや言語適応を必要とせずに、既存のセマンティックおよびBM25ベースの検索技術よりも優れていることを示しています。
これはまた、一致するエラーパターンが例を選択するための鍵であることを示唆しています。

要約(オリジナル)

Grammatical error correction (GEC) aims to correct grammatical, spelling, and semantic errors in natural language text. With the growing of large language models (LLMs), direct text generation has gradually become the focus of the GEC methods, and few-shot in-context learning presents a cost-effective solution. However, selecting effective in-context examples remains challenging, as the similarity between input texts does not necessarily correspond to similar grammatical error patterns. In this paper, we propose a novel retrieval method based on natural language grammatical error explanations (GEE) to address this issue. Our method retrieves suitable few-shot demonstrations by matching the GEE of the test input with that of pre-constructed database samples, where explanations for erroneous samples are generated by LLMs. We conducted multilingual GEC few-shot experiments on both major open-source and closed-source LLMs. Experiments across five languages show that our method outperforms existing semantic and BM25-based retrieval techniques, without requiring additional training or language adaptation. This also suggests that matching error patterns is key to selecting examples.

arxiv情報

著者 Wei Li,Wen Luo,Guangyue Peng,Houfeng Wang
発行日 2025-02-12 15:41:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Explanation based In-Context Demonstrations Retrieval for Multilingual Grammatical Error Correction はコメントを受け付けていません

Faithful, Unfaithful or Ambiguous? Multi-Agent Debate with Initial Stance for Summary Evaluation

要約

大規模な言語モデル(LLM)に基づいた忠実さの評価者は、テキストの流encyさにだまされ、要約のエラーを特定することに苦労することがよくあります。
複数のLLMベースのエージェントが初期スタンス(彼らの信念が何であるかに関係なく)に割り当てられ、課せられた信念を正当化する理由を思い付くことを余儀なくされ、したがってマルチラウンドの議論に従事するという要約忠実な評価へのアプローチを提案します
合意に達する。
均一に分散された初期割り当てにより、より多くの多様なスタンスが発生します。
さらに、最近の忠実な評価データセットを分析することにより、当然のことながら、要約がソース文書に忠実であるかどうかは必ずしもそうではないことを観察します。
したがって、このような特別なケースを特定するために、新しい次元、曖昧さ、および詳細な分類法を紹介します。
実験は、私たちのアプローチが曖昧さを特定するのに役立つことを実証し、非曖昧な要約でパフォーマンスを強化することさえあります。

要約(オリジナル)

Faithfulness evaluators based on large language models (LLMs) are often fooled by the fluency of the text and struggle with identifying errors in the summaries. We propose an approach to summary faithfulness evaluation in which multiple LLM-based agents are assigned initial stances (regardless of what their belief might be) and forced to come up with a reason to justify the imposed belief, thus engaging in a multi-round debate to reach an agreement. The uniformly distributed initial assignments result in a greater diversity of stances leading to more meaningful debates and ultimately more errors identified. Furthermore, by analyzing the recent faithfulness evaluation datasets, we observe that naturally, it is not always the case for a summary to be either faithful to the source document or not. We therefore introduce a new dimension, ambiguity, and a detailed taxonomy to identify such special cases. Experiments demonstrate our approach can help identify ambiguities, and have even a stronger performance on non-ambiguous summaries.

arxiv情報

著者 Mahnaz Koupaee,Jake W. Vincent,Saab Mansour,Igor Shalyminov,Han He,Hwanjun Song,Raphael Shu,Jianfeng He,Yi Nian,Amy Wing-mei Wong,Kyu J. Han,Hang Su
発行日 2025-02-12 15:46:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Faithful, Unfaithful or Ambiguous? Multi-Agent Debate with Initial Stance for Summary Evaluation はコメントを受け付けていません

Exploiting Sparsity for Long Context Inference: Million Token Contexts on Commodity GPUs

要約

訓練されたトランスモデルに数十万の入力トークンを使用して、推論を実行する需要が高まっています。
この極端なスケールでの推論には、重要な計算リソースが必要であり、商品(つまり、データセンタースケールではない)ハードウェアで長いコンテキストで変圧器を適用することを妨げます。
長いコンテキストで自己関節ベースのトランス語モデルを実行することに関連する推論時間コストに対処し、広く利用可能なハードウェアでの採用を可能にするために、で最も関連性の高いトークンのみに参加することにより、フォワードパスのコストを削減する調整可能なメカニズムを提案します。
Top-K選択メカニズムを使用したすべての世代ステップ。
約16GBのGPU RAMを使用して、最大1Mトークンまでコンテキストウィンドウで推論を実行することにより、私たちの方法で得られる効率の向上を紹介します。
私たちの実験は、モデルがキーと値の数の減少によって引き起こされるスパース性を処理できることを明らかにしています。
入力トークンの2%未満に注意することにより、一般的なベンチマーク(Ruler、Alpacaeval、およびOpen LLMリーダーボード)でモデルパフォーマンスの95%以上を達成します。

要約(オリジナル)

There is growing demand for performing inference with hundreds of thousands of input tokens on trained transformer models. Inference at this extreme scale demands significant computational resources, hindering the application of transformers at long contexts on commodity (i.e not data center scale) hardware. To address the inference time costs associated with running self-attention based transformer language models on long contexts and enable their adoption on widely available hardware, we propose a tunable mechanism that reduces the cost of the forward pass by attending to only the most relevant tokens at every generation step using a top-k selection mechanism. We showcase the efficiency gains afforded by our method by performing inference on context windows up to 1M tokens using approximately 16GB of GPU RAM. Our experiments reveal that models are capable of handling the sparsity induced by the reduced number of keys and values. By attending to less than 2% of input tokens, we achieve over 95% of model performance on common benchmarks (RULER, AlpacaEval, and Open LLM Leaderboard).

arxiv情報

著者 Ryan Synk,Monte Hoover,John Kirchenbauer,Neel Jain,Alex Stein,Manli Shu,Josue Melendez Sanchez,Ramani Duraiswami,Tom Goldstein
発行日 2025-02-12 15:55:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Exploiting Sparsity for Long Context Inference: Million Token Contexts on Commodity GPUs はコメントを受け付けていません

LLM Pretraining with Continuous Concepts

要約

次のトークン予測は、大規模な言語モデルの事前化で使用される標準的なトレーニング目標です。
表現は、トークンレベルの困惑を最適化した結果として学習されます。
連続コンセプトミキシング(CoComix)を提案します。これは、離散的な次のトークン予測と連続概念を組み合わせた新しい事前トレーニングフレームワークです。
具体的には、Cocomixは、前処理されたスパース自動エンコーダーから学習した連続概念を予測し、トークンの隠された表現とインテリアすることにより、それらをモデルの隠れた状態に混ぜます。
言語モデリングや下流の推論タスクを含む複数のベンチマークでの実験を通じて、Cocomixはよりサンプル効率が高く、トークンの予測、知識の蒸留、停止トークンの挿入の次の標準よりも一貫して標準を上回ることを示します。
エンドツーエンドのフレームワークでの概念学習とインターリーブの両方を組み合わせることが、パフォーマンスの向上にとって重要であることがわかります。
さらに、Cocomixは、予測された概念の直接検査と変更を可能にすることにより、解釈可能性と操縦性を向上させ、モデルの内部推論プロセスを導く透明な方法を提供します。

要約(オリジナル)

Next token prediction has been the standard training objective used in large language model pretraining. Representations are learned as a result of optimizing for token-level perplexity. We propose Continuous Concept Mixing (CoCoMix), a novel pretraining framework that combines discrete next token prediction with continuous concepts. Specifically, CoCoMix predicts continuous concepts learned from a pretrained sparse autoencoder and mixes them into the model’s hidden state by interleaving with token hidden representations. Through experiments on multiple benchmarks, including language modeling and downstream reasoning tasks, we show that CoCoMix is more sample efficient and consistently outperforms standard next token prediction, knowledge distillation and inserting pause tokens. We find that combining both concept learning and interleaving in an end-to-end framework is critical to performance gains. Furthermore, CoCoMix enhances interpretability and steerability by allowing direct inspection and modification of the predicted concept, offering a transparent way to guide the model’s internal reasoning process.

arxiv情報

著者 Jihoon Tack,Jack Lanchantin,Jane Yu,Andrew Cohen,Ilia Kulikov,Janice Lan,Shibo Hao,Yuandong Tian,Jason Weston,Xian Li
発行日 2025-02-12 16:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | LLM Pretraining with Continuous Concepts はコメントを受け付けていません

QA-Expand: Multi-Question Answer Generation for Enhanced Query Expansion in Information Retrieval

要約

クエリの拡張は、追加のコンテキスト情報でクエリを充実させることにより、検索結果を改善するために情報検索(IR)で広く使用されています。
最近の大規模な言語モデル(LLM)ベースのメソッドは、擬似関連コンテンツを生成し、複数のプロンプトを介して用語を拡張しますが、多くの場合、関連するすべての情報を取得するために必要な多様なコンテキストを欠く繰り返しの狭い拡張を生成します。
この論文では、クエリ拡張のための斬新で効果的なフレームワークであるQA-Expandを紹介します。
最初に最初のクエリから複数の関連する質問を生成し、その後、サロゲートドキュメントとして対応する擬似回答を生成します。
フィードバックモデルは、これらの回答をさらに書き直してフィルタリングして、最も有益な増強のみが組み込まれていることを確認します。
BeirやTRECなどのベンチマークでの広範な実験は、QA拡張機能が最新の方法よりも最大13%の検索パフォーマンスを強化し、最新の検索課題に堅牢なソリューションを提供することを示しています。

要約(オリジナル)

Query expansion is widely used in Information Retrieval (IR) to improve search outcomes by enriching queries with additional contextual information. Although recent Large Language Model (LLM) based methods generate pseudo-relevant content and expanded terms via multiple prompts, they often yield repetitive, narrow expansions that lack the diverse context needed to retrieve all relevant information. In this paper, we introduce QA-Expand, a novel and effective framework for query expansion. It first generates multiple relevant questions from the initial query and subsequently produces corresponding pseudo-answers as surrogate documents. A feedback model further rewrites and filters these answers to ensure only the most informative augmentations are incorporated. Extensive experiments on benchmarks such as BEIR and TREC demonstrate that QA-Expand enhances retrieval performance by up to 13% over state-of-the-art methods, offering a robust solution for modern retrieval challenges.

arxiv情報

著者 Wonduk Seo,Seunghyun Lee
発行日 2025-02-12 16:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG, cs.MA | QA-Expand: Multi-Question Answer Generation for Enhanced Query Expansion in Information Retrieval はコメントを受け付けていません

Quality-Aware Decoding: Unifying Quality Estimation and Decoding

要約

NMTの新たな研究方向には、人間の判断との高い相関関係を実証し、品質を認識したデコードを通じて翻訳を強化することができる品質推定(QE)モデルの使用が含まれます。
複数の候補翻訳のサンプリングに基づいていくつかのアプローチが提案されていますが、これらのモデルをデコードプロセスに直接統合するものはありません。
この論文では、これに対処し、部分的な翻訳を確実に獲得できる新しいトークンレベルのQEモデルを提案します。
デコーダーモデルは本質的に訓練され、部分的なシーケンスで効率的であるため、このための一方向のQEモデルを構築します。
次に、品質認識デコードのQEモデルを統合するデコード戦略を提示し、最先端のQEモデル(最大$ 1.39 $ XCOMET–UST-ART QEモデルと再ランク付けするN-BESTリストと比較すると、翻訳品質が改善することを示します。
xxl $ \ uparrow $)。
最後に、私たちのアプローチは、n-bestリストの品質が一般的に準最適であるドキュメント翻訳タスクに大きな利点を提供することを示します。

要約(オリジナル)

An emerging research direction in NMT involves the use of Quality Estimation (QE) models, which have demonstrated high correlations with human judgment and can enhance translations through Quality-Aware Decoding. Although several approaches have been proposed based on sampling multiple candidate translations, none have integrated these models directly into the decoding process. In this paper, we address this by proposing a novel token-level QE model capable of reliably scoring partial translations. We build a uni-directional QE model for this, as decoder models are inherently trained and efficient on partial sequences. We then present a decoding strategy that integrates the QE model for Quality-Aware decoding and demonstrate that the translation quality improves when compared to the N-best list re-ranking with state-of-the-art QE models (upto $1.39$ XCOMET-XXL $\uparrow$). Finally, we show that our approach provides significant benefits in document translation tasks, where the quality of N-best lists is typically suboptimal.

arxiv情報

著者 Sai Koneru,Matthias Huck,Miriam Exel,Jan Niehues
発行日 2025-02-12 16:49:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Quality-Aware Decoding: Unifying Quality Estimation and Decoding はコメントを受け付けていません