Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages

要約

低リソース言語(LRL)は、データが限られているため、自然言語処理(NLP)の重大な課題に直面しています。
現在の最先端の大規模な言語モデル(LLM)は依然としてLRLと格闘していますが、MbertやXLM-Rなどの小型の多言語モデル(MLM)は、低トレーニングデータサイズの能力により適合するため、より大きな有望です。
この研究では、MLMをLRLに適応させるためのパラメーター効率の高いアダプターベースの方法を体系的に調査し、3つのアーキテクチャを評価します。
GlotCCからの非構造化テキストとコンセプトネットからの構造化された知識を使用して、小さな適応データセット(たとえば、最大1 GBのフリーテキストまたは数MBの知識グラフデータ)が、内因性タスク(マスクされた言語モデリング)と外因性タスク(
トピック分類、センチメント分析、および名前付きエンティティ認識)。
シーケンシャルボトルネックアダプターは言語モデリングに優れていることがわかりますが、反転可能なボトルネックアダプターは、アライメントの埋め込みとパラメーター数が大きいため、下流タスクの他のメソッドをわずかに上回ります。
アダプターベースのメソッドは、パラメーターをはるかに少なく使用しながら、完全な微調整を一致または上回り、LLAM-3、GPT-4、DeepSeek-R1ベースの蒸留モデルなどの大規模なLLMよりもLRLに対してより効果的であることが証明されます。
適応はパフォーマンスを改善しますが、特に広範なトレーニング前のカバレッジを持つ言語では、トレーニング前のデータサイズが支配的な要因のままです。

要約(オリジナル)

Low-resource languages (LRLs) face significant challenges in natural language processing (NLP) due to limited data. While current state-of-the-art large language models (LLMs) still struggle with LRLs, smaller multilingual models (mLMs) such as mBERT and XLM-R offer greater promise due to a better fit of their capacity to low training data sizes. This study systematically investigates parameter-efficient adapter-based methods for adapting mLMs to LRLs, evaluating three architectures: Sequential Bottleneck, Invertible Bottleneck, and Low-Rank Adaptation. Using unstructured text from GlotCC and structured knowledge from ConceptNet, we show that small adaptation datasets (e.g., up to 1 GB of free-text or a few MB of knowledge graph data) yield gains in intrinsic (masked language modeling) and extrinsic tasks (topic classification, sentiment analysis, and named entity recognition). We find that Sequential Bottleneck adapters excel in language modeling, while Invertible Bottleneck adapters slightly outperform other methods on downstream tasks due to better embedding alignment and larger parameter counts. Adapter-based methods match or outperform full fine-tuning while using far fewer parameters, and smaller mLMs prove more effective for LRLs than massive LLMs like LLaMA-3, GPT-4, and DeepSeek-R1-based distilled models. While adaptation improves performance, pre-training data size remains the dominant factor, especially for languages with extensive pre-training coverage.

arxiv情報

著者 Daniil Gurgurov,Ivan Vykopal,Josef van Genabith,Simon Ostermann
発行日 2025-02-14 13:10:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages はコメントを受け付けていません

A Unified Approach to Routing and Cascading for LLMs

要約

さまざまなエージェントシステムに組み込まれた幅広い大型言語モデル(LLM)の可用性は、コストパフォーマンスのトレードオフを改善するためのモデル選択戦略の可能性を大幅に増加させました。
既存の戦略には、クエリごとに単一のモデルが選択されているルーティングまたはカスケードが含まれます。これは、満足のいく回答が見つかるまでますます大きなモデルを順番に実行します。
ただし、現在のアプローチは3つの重要な制限に直面しています。(1)最適性の正式な証拠がない、(2)これらの戦略がコストパフォーマンスのトレードオフを改善するために最も効果的である条件を特定できず、(3)組み合わせることができない
さらなる改善のための両方のパラダイム。
これらの問題に対処するために、最初にカスケードのための新しい最適戦略を導き出し、既存のルーティング戦略の最適性を証明します。
さらに、ルーティングとカスケードを理論的に最適な戦略に統合する統合されたフレームワークであるカスケードルーティングを提案します。
分析を通じて、良質の推定器をモデル選択パラダイムの成功の重要な要因として特定します。
最後に、私たちの実験では、カスケードルーティングが個々のアプローチを大きなマージンで一貫して上回ることを示し、品質推定器を分析して、ルーティングおよび/またはカスケードがモデル選択に役立つパラダイムであることを判断します。

要約(オリジナル)

The availability of a wide range of large language models (LLMs) embedded in various agentic systems has significantly increased the potential of model selection strategies to improve the cost-performance tradeoff. Existing strategies involve either routing, where a single model is chosen per query, or cascading, which sequentially runs increasingly larger models until a satisfactory answer is found. However, current approaches face three key limitations: they (1) lack formal proofs of optimality, (2) fail to identify the conditions under which these strategies are most effective to improve the cost-performance tradeoff, and (3) are unable to combine both paradigms for further improvements. To address these issues, we first derive a novel optimal strategy for cascading and prove the optimality of an existing routing strategy. Further, we propose cascade routing, a unified framework that integrates routing and cascading into a theoretically optimal strategy. Through our analysis, we identify good quality estimators as the critical factor for the success of model selection paradigms. Finally, in our experiments, we show that cascade routing consistently outperforms the individual approaches by a large margin and we analyze quality estimators to determine when routing and/or cascading are useful paradigms for model selection.

arxiv情報

著者 Jasper Dekoninck,Maximilian Baader,Martin Vechev
発行日 2025-02-14 13:13:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Unified Approach to Routing and Cascading for LLMs はコメントを受け付けていません

Context-Aware or Context-Insensitive? Assessing LLMs’ Performance in Document-Level Translation

要約

大規模な言語モデル(LLM)は、機械翻訳においてますます強い候補です。
この作業では、文書レベルの翻訳に焦点を当てます。ここでは、文の外部からのコンテキストなしにいくつかの単語を翻訳できません。
具体的には、摂動分析(摂動および無作為化ドキュメントコンテキストに対するモデルの堅牢性を分析する)と帰属分析(翻訳への関連するコンテキストの寄与を調べる)を介して翻訳中にドキュメントコンテキストを利用する顕著なLLMの能力を調査します。
多様なモデルファミリから9つのLLMにわたって広範な評価を実施し、2つのエンコーダーデコーダートランスベースラインとともに、翻訳専用のLLMを含むトレーニングパラダイムを実施しています。
Encoder-Decoderモデルと比較して、LLMSのドキュメント翻訳性能の改善は、代名詞翻訳性能に反映されていないことがわかります。
私たちの分析は、文書レベルの翻訳の信頼性を向上させるために、コンテキストの関連部分に焦点を当てて、LLMのコンテキストを意識する微調整の必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) are increasingly strong contenders in machine translation. In this work, we focus on document-level translation, where some words cannot be translated without context from outside the sentence. Specifically, we investigate the ability of prominent LLMs to utilize the document context during translation through a perturbation analysis (analyzing models’ robustness to perturbed and randomized document context) and an attribution analysis (examining the contribution of relevant context to the translation). We conduct an extensive evaluation across nine LLMs from diverse model families and training paradigms, including translation-specialized LLMs, alongside two encoder-decoder transformer baselines. We find that LLMs’ improved document-translation performance compared to encoder-decoder models is not reflected in pronoun translation performance. Our analysis highlight the need for context-aware finetuning of LLMs with a focus on relevant parts of the context to improve their reliability for document-level translation.

arxiv情報

著者 Wafaa Mohammed,Vlad Niculae
発行日 2025-02-14 13:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Context-Aware or Context-Insensitive? Assessing LLMs’ Performance in Document-Level Translation はコメントを受け付けていません

STATE ToxiCN: A Benchmark for Span-level Target-Aware Toxicity Extraction in Chinese Hate Speech Detection

要約

ヘイトスピーチの急増は、社会に大きな害をもたらしました。
憎しみの強度と方向性は、それが関連付けられているターゲットと議論に密接に結びついています。
ただし、中国語でのヘイトスピーチ検出に関する研究は遅れをとっており、既存のデータセットにはスパンレベルのファイングレインアノテーションがありません。
さらに、中国の憎悪の俗語に関する研究の欠如は、重要な課題をもたらします。
この論文では、中国のヘイトスピーチを細かく検出するためのソリューションを提供します。
まず、最初のスパンレベルの中国のヘイトスピーチデータセットであるターゲットアングメント – 嫌いなグループQuadruples(状態毒性)を含むデータセットを構築します。
第二に、状態毒性を使用して既存モデルのスパンレベルのヘイトスピーチ検出パフォーマンスを評価します。
最後に、中国の憎悪の俗語に関する最初の研究を実施し、LLMSがそのような表現を検出する能力を評価します。
私たちの仕事は、中国語でのスパンレベルのヘイトスピーチ検出を促進するための貴重なリソースと洞察を提供しています。

要約(オリジナル)

The proliferation of hate speech has caused significant harm to society. The intensity and directionality of hate are closely tied to the target and argument it is associated with. However, research on hate speech detection in Chinese has lagged behind, and existing datasets lack span-level fine-grained annotations. Furthermore, the lack of research on Chinese hateful slang poses a significant challenge. In this paper, we provide a solution for fine-grained detection of Chinese hate speech. First, we construct a dataset containing Target-Argument-Hateful-Group quadruples (STATE ToxiCN), which is the first span-level Chinese hate speech dataset. Secondly, we evaluate the span-level hate speech detection performance of existing models using STATE ToxiCN. Finally, we conduct the first study on Chinese hateful slang and evaluate the ability of LLMs to detect such expressions. Our work contributes valuable resources and insights to advance span-level hate speech detection in Chinese.

arxiv情報

著者 Zewen Bai,Yuanyuan Sun,Shengdi Yin,Junyu Lu,Jingjie Zeng,Haohao Zhu,Liang Yang,Hongfei Lin
発行日 2025-02-14 14:03:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | STATE ToxiCN: A Benchmark for Span-level Target-Aware Toxicity Extraction in Chinese Hate Speech Detection はコメントを受け付けていません

Self-Refinement Strategies for LLM-based Product Attribute Value Extraction

要約

属性値のペアの形式での構造化された製品データは、eコマースプラットフォームにとって、ファセット製品検索や属性ベースの製品比較などの機能をサポートするために不可欠です。
ただし、ベンダーはしばしば構造化されていない製品の説明を提供し、データの一貫性と使いやすさを確保するために属性値抽出を必要とします。
大規模な言語モデル(LLMS)は、少ないショットシナリオで製品属性値抽出の可能性を実証しています。
最近の研究では、自己修正技術がコード生成やテキスト間翻訳などのタスクでのLLMSのパフォーマンスを改善できることが示されています。
他のタスクの場合、これらの手法を適用すると、パフォーマンスの改善を達成することなく、追加のトークンの処理によりコストが増加しました。
このペーパーでは、製品属性値抽出タスクに2つの自己修復手法(エラーベースのプロンプトの書き換えと自己修正)を適用することを調査します。
自己修正技術は、GPT-4Oを使用して、ゼロショット、少数のショット内コンテキスト学習、および微調整シナリオで評価されます。
実験は、両方の自己修復技術が抽出パフォーマンスを大幅に改善できない一方で、処理コストを大幅に増加させることを示しています。
開発データを備えたシナリオの場合、微調整はパフォーマンスが最も高くなりますが、製品の説明の量が増えるにつれて、微調整のランプアップコストはバランスが取れています。

要約(オリジナル)

Structured product data, in the form of attribute-value pairs, is essential for e-commerce platforms to support features such as faceted product search and attribute-based product comparison. However, vendors often provide unstructured product descriptions, making attribute value extraction necessary to ensure data consistency and usability. Large language models (LLMs) have demonstrated their potential for product attribute value extraction in few-shot scenarios. Recent research has shown that self-refinement techniques can improve the performance of LLMs on tasks such as code generation and text-to-SQL translation. For other tasks, the application of these techniques has resulted in increased costs due to processing additional tokens, without achieving any improvement in performance. This paper investigates applying two self-refinement techniques (error-based prompt rewriting and self-correction) to the product attribute value extraction task. The self-refinement techniques are evaluated across zero-shot, few-shot in-context learning, and fine-tuning scenarios using GPT-4o. The experiments show that both self-refinement techniques fail to significantly improve the extraction performance while substantially increasing processing costs. For scenarios with development data, fine-tuning yields the highest performance, while the ramp-up costs of fine-tuning are balanced out as the amount of product descriptions increases.

arxiv情報

著者 Alexander Brinkmann,Christian Bizer
発行日 2025-02-14 14:47:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Self-Refinement Strategies for LLM-based Product Attribute Value Extraction はコメントを受け付けていません

Can Post-Training Quantization Benefit from an Additional QLoRA Integration?

要約

大規模な言語モデル(LLM)は自然言語処理を変革しましたが、実際の展開に大きな課題をもたらします。
これらのモデルには、かなりのコンピューティングリソースが必要であり、費用がかかり、頻繁に利用できない場合があります。
量子化などのモデル圧縮技術は、多くの場合、リソースの需要を軽減するために活用されますが、生成品質にマイナスの影響を与える可能性があります。
この研究では、これらの問題に対処するために、4ビットトレーニング後の量子化(PTQ)とQloraとの統合を調査します。
広範な実験を通じて、この統合は標準のPTQよりも優れていることを実証し、場合によってはLLMSでの16ビットのフルパラメーター微調整でさえ、異なる量子化アルゴリズムを使用して独自およびパブリックデータセット間で検証されています。
結果は、PTQ-Qlora統合の有効性を示しており、パフォーマンスを損なうことなく、リソース制約の環境で強力なLLMを展開するための実行可能なソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) have transformed natural language processing but pose significant challenges for real-world deployment. These models necessitate considerable computing resources, which can be costly and frequently unavailable. Model compression techniques such as quantization are often leveraged to alleviate resource demand, but they may have a negative impact on the generation quality. In this study, we explore the integration of 4-bit Post-training Quantization (PTQ) with QLoRA to address these issues. We demonstrate through extensive experiments that this integration outperforms standard PTQ, and in some cases even 16-bit full-parameter fine-tuning on LLMs, validated across proprietary and public datasets with different quantization algorithms. The results demonstrate the efficacy of PTQ-QLoRA integration, offering a viable solution for deploying powerful LLMs in resource-constrained environments without compromising on performance.

arxiv情報

著者 Xiliang Zhu,Elena Khasanova,Cheng Chen
発行日 2025-02-14 14:56:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can Post-Training Quantization Benefit from an Additional QLoRA Integration? はコメントを受け付けていません

A distributional simplicity bias in the learning dynamics of transformers

要約

効果的に一般化するための過剰パラメーター化されたニューラルネットワークの顕著な能力は、「シンプルさのバイアス」を呼び出すことによって説明されています。
シンプルさのバイアスは、監視された学習のためのフィードフォワードネットワークで理論的および実験的に説明されていますが、自己監視技術で訓練されたトランスの顕著な成功も説明している程度も不明のままです。
私たちの研究では、自然言語データの訓練を受けたトランスフォーマーもシンプルさのバイアスを示すことを示しています。
具体的には、入力トークン間の多体相互作用を順次学習し、高級相互作用の学習を続けながら、低級相互作用の予測エラーの飽和点に達します。
この分析を実施するために、指定された順序までのトークン間の相互作用を厳密にキャプチャする、特定の自然言語データセットの\ textit {clones}を生成する手順を開発します。
このアプローチは、データにおけるさまざまな順序の相互作用が学習、自然言語処理、それ以降にどのように影響するかを研究する可能性を開きます。

要約(オリジナル)

The remarkable capability of over-parameterised neural networks to generalise effectively has been explained by invoking a “simplicity bias”: neural networks prevent overfitting by initially learning simple classifiers before progressing to more complex, non-linear functions. While simplicity biases have been described theoretically and experimentally in feed-forward networks for supervised learning, the extent to which they also explain the remarkable success of transformers trained with self-supervised techniques remains unclear. In our study, we demonstrate that transformers, trained on natural language data, also display a simplicity bias. Specifically, they sequentially learn many-body interactions among input tokens, reaching a saturation point in the prediction error for low-degree interactions while continuing to learn high-degree interactions. To conduct this analysis, we develop a procedure to generate \textit{clones} of a given natural language data set, which rigorously capture the interactions between tokens up to a specified order. This approach opens up the possibilities of studying how interactions of different orders in the data affect learning, in natural language processing and beyond.

arxiv情報

著者 Riccardo Rende,Federica Gerace,Alessandro Laio,Sebastian Goldt
発行日 2025-02-14 15:20:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A distributional simplicity bias in the learning dynamics of transformers はコメントを受け付けていません

Graph-based Retrieval Augmented Generation for Dynamic Few-shot Text Classification

要約

テキスト分類は、データマイニングの基本的なタスクであり、表形式の理解や推奨など、さまざまなアプリケーションに極めて重要です。
CNNやBertなどのニューラルネットワークベースのモデルは、テキスト分類の顕著なパフォーマンスを実証していますが、その有効性は豊富なラベルのあるトレーニングデータに大きく依存しています。
この依存関係により、これらのモデルは、ラベル付きデータが不足している動的な少数のテキスト分類では効果が低くなり、アプリケーションのニーズに基づいて新しいターゲットラベルが頻繁に表示されます。
最近、大規模な言語モデル(LLM)は、広範な前採用と文脈的理解能力のために有望を示しています。
現在のアプローチは、テキストを分類するためのテキスト入力、候補ラベル、および追加の副情報(例:説明)をLLMSに提供します。
ただし、それらの有効性は、入力サイズの増加と側面情報処理を通じて導入されるノイズによって妨げられます。
これらの制限に対処するために、ダイナミックな少数のテキスト分類のために、グラフベースのオンライン検索された選択フレームワーク、つまりGoragを提案します。
各入力を独立して処理するのではなく、Goragはすべてのターゲットテキストでサイド情報を抽出することにより、加重グラフを構築および維持します。
このグラフでは、テキストキーワードとラベルはノードとして表され、エッジはそれらの間の相関を示しています。
これらの相関をモデル化するために、GORAGは抽出された情報の重要性と信頼性を優先するためにエッジの重み付けメカニズムを採用し、各テキスト入力に合わせた最小コストのスパニングツリーを使用して関連するコンテキストを動的に取得します。
経験的評価は、Goragがより包括的で正確なコンテキスト情報を提供することにより、既存のアプローチを上回ることを示しています。

要約(オリジナル)

Text classification is a fundamental task in data mining, pivotal to various applications such as tabular understanding and recommendation. Although neural network-based models, such as CNN and BERT, have demonstrated remarkable performance in text classification, their effectiveness heavily relies on abundant labeled training data. This dependency makes these models less effective in dynamic few-shot text classification, where labeled data is scarce, and new target labels frequently appear based on application needs. Recently, large language models (LLMs) have shown promise due to their extensive pretraining and contextual understanding ability. Current approaches provide LLMs with text inputs, candidate labels, and additional side information (e.g., descriptions) to classify texts. However, their effectiveness is hindered by the increased input size and the noise introduced through side information processing. To address these limitations, we propose a graph-based online retrieval-augmented generation framework, namely GORAG, for dynamic few-shot text classification. Rather than treating each input independently, GORAG constructs and maintains a weighted graph by extracting side information across all target texts. In this graph, text keywords and labels are represented as nodes, with edges indicating the correlations between them. To model these correlations, GORAG employs an edge weighting mechanism to prioritize the importance and reliability of extracted information and dynamically retrieves relevant context using a minimum-cost spanning tree tailored for each text input. Empirical evaluations demonstrate that GORAG outperforms existing approaches by providing more comprehensive and precise contextual information.

arxiv情報

著者 Yubo Wang,Haoyang Li,Fei Teng,Lei Chen
発行日 2025-02-14 15:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | Graph-based Retrieval Augmented Generation for Dynamic Few-shot Text Classification はコメントを受け付けていません

Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation

要約

最近の生成大規模な言語モデル(LLMS)は、英語以外の言語で顕著なパフォーマンスを示していますが、それらの言語で促されると、より高い有害な社会的偏見と毒性レベルを表現する傾向があります。
以前の作業では、特殊なデータセットでの微調整がこの動作を軽減できることを示しており、英語でそうすることで他の言語に転送できることが示されています。
この作業では、モデルのバイアスと毒性に対するさまざまな微調整方法の影響を調査しますが、流fluentで多様なテキストを生成する能力についても調査します。
キュレーションされた非薬物テキストで微調整することによりバイアスを減らしますが、毒性の緩和に効果的であるため、直接的な優先順位の最適化のみが見つかります。
これらの方法を英語で適用することによって引き起こされる緩和も、英語以外の言語に転送されます。
転送が行われる程度は、モデルの前削減データに存在する特定の言語のデータの量によって予測できるという証拠を見つけます。
ただし、このバイアスと毒性緩和の移転は、英語以外の言語で言語生成能力の低下を犠牲にして、言語固有のバイアスと毒性緩和方法の開発の重要性を強調することがよくあります。

要約(オリジナル)

Recent generative large language models (LLMs) show remarkable performance in non-English languages, but when prompted in those languages they tend to express higher harmful social biases and toxicity levels. Prior work has shown that finetuning on specialized datasets can mitigate this behavior, and doing so in English can transfer to other languages. In this work, we investigate the impact of different finetuning methods on the model’s bias and toxicity, but also on its ability to produce fluent and diverse text. We reduce biases by finetuning on curated non-harmful text, but find only direct preference optimization to be effective for mitigating toxicity. The mitigation caused by applying these methods in English also transfers to non-English languages. We find evidence that the extent to which transfer takes place can be predicted by the amount of data in a given language present in the model’s pretraining data. However, this transfer of bias and toxicity mitigation often comes at the expense of decreased language generation ability in non-English languages, highlighting the importance of developing language-specific bias and toxicity mitigation methods.

arxiv情報

著者 Vera Neplenbroek,Arianna Bisazza,Raquel Fernández
発行日 2025-02-14 15:39:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation はコメントを受け付けていません

A Critical Look At Tokenwise Reward-Guided Text Generation

要約

大規模な言語モデル(LLMS)は、人間のフィードバック(RLHF)からのいわゆる強化学習を通じて、人間の好みに合わせて調整することで改善できます。
ただし、LLMを微調整するコストは、多くのユーザーにとって法外なものです。
LLMの微調整をバイパスする能力により、最近提案されている予測時間トケンワイズ報酬ガイド付きテキスト生成(RGTG)メソッドが提案されています。
彼らは、完全なシーケンスでトレーニングされた報酬モデルを使用して、デコード中に部分的なシーケンスを獲得し、高い報酬を持つシーケンスに向かって発電を導くために除去します。
ただし、これらの方法はこれまでのところ、ヒューリスティックな動機付けであり、分析が不十分でした。
この作業では、完全なシーケンスでトレーニングされた報酬モデルが、スコアリングの部分シーケンスと互換性がないことを示します。
この問題を軽減するために、部分的なシーケンスで明示的にブラッドリー・テリー報酬モデルを訓練し、デコード時に暗黙のトークンワイズポリシーから自動網目上サンプルすることを提案します。
この報酬モデルのプロパティと結果のポリシーを研究します。このポリシーは、2つの異なるRLHFポリシーの比率に比例していることを示します。
私たちのシンプルなアプローチは、以前のRGTGメソッドを上回り、大規模なLLM Finetuningなしで強力なオフラインベースラインと同様に実行します。

要約(オリジナル)

Large language models (LLMs) can be improved by aligning with human preferences through fine-tuning — the so-called reinforcement learning from human feedback (RLHF). However, the cost of fine-tuning an LLM is prohibitive for many users. Due to their ability to bypass LLM fine-tuning, prediction-time tokenwise reward-guided text generation (RGTG) methods have recently been proposed. They use a reward model trained on full sequences to score partial sequences during decoding in a bid to steer the generation towards sequences with high rewards. However, these methods have so far been only heuristically motivated and poorly analyzed. In this work, we show that reward models trained on full sequences are not compatible with scoring partial sequences. To alleviate this issue, we propose to train a Bradley-Terry reward model on partial sequences explicitly, and autoregressively sample from the implied tokenwise policy during decoding time. We study the properties of this reward model and the resulting policy: we show that this policy is proportional to the ratio of two distinct RLHF policies. Our simple approach outperforms previous RGTG methods and performs similarly to strong offline baselines without large-scale LLM finetuning.

arxiv情報

著者 Ahmad Rashid,Ruotian Wu,Julia Grosse,Agustinus Kristiadi,Pascal Poupart
発行日 2025-02-14 15:46:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | A Critical Look At Tokenwise Reward-Guided Text Generation はコメントを受け付けていません