Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models

要約

通常、人間のフィードバック(RLHF)からの強化学習を通じて、人間の好みに関する大規模な言語モデル(LLM)の微調整は、能力の向上に成功していることが証明されています。
ただし、微調整中にLLMの安全性を確保することは依然として重要な懸念事項であり、RLHFでは安全性と有用性における潜在的な対立を軽減することは費用がかかります。
この問題に対処するために、安全性と有用性の両方の共同RLHF目標を単一の監視された学習目標に再パラメータ化する双頭嗜好最適化(BFPO)と呼ばれる監視された学習フレームワークを提案します。
監視された最適化では、ラベリング関数を使用して、安全性と有用性の両方のバランスをとるために、グローバルな好みのランキングをキャプチャします。
BFPOを評価するために、協力と無害性のための包括的な識別および生成タスクを含むベンチマークを開発します。
結果は、私たちの方法が、安全性と有用性の両方で既存のアプローチを大幅に上回ることを示しています。
さらに、BFPOは、計算リソースと人間のプロンプトと注釈のプロセスの10 \%未満で人間の労働に大きく依存している方法と同じレベルの安全性を達成しています。
トレーニングレシピは、https://github.com/wx-zhang/bfpoにあります。

要約(オリジナル)

Fine-tuning large language models (LLMs) on human preferences, typically through reinforcement learning from human feedback (RLHF), has proven successful in enhancing their capabilities. However, ensuring the safety of LLMs during fine-tuning remains a critical concern, and mitigating the potential conflicts in safety and helpfulness is costly in RLHF. To address this issue, we propose a supervised learning framework called Bi-Factorial Preference Optimization (BFPO), which re-parameterizes a joint RLHF objective of both safety and helpfulness into a single supervised learning objective. In supervised optimization, a labeling function is used to capture the global preferences ranking to balance both safety and helpfulness. To evaluate BFPO, we develop a benchmark that includes comprehensive discriminative and generative tasks for helpfulness and harmlessness. The results indicate that our method significantly outperforms existing approaches in both safety and helpfulness. Moreover, BFPO achieves the same level of safety as methods that heavily rely on human labor with less than 10\% of the computational resources and human prompting and annotation process. The training recipes can be found here: https://github.com/wx-zhang/bfpo.

arxiv情報

著者 Wenxuan Zhang,Philip H. S. Torr,Mohamed Elhoseiny,Adel Bibi
発行日 2025-04-08 11:04:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models はコメントを受け付けていません

High-Resource Translation:Turning Abundance into Accessibility

要約

このペーパーでは、転送学習技術を活用し、低リソース言語に関連する課題に対処することにより、英語からテルグからテルグまでの翻訳モデルを構築するための新しいアプローチを提示します。
Bharat Parallel Corpus Collection(BPCC)をプライマリデータセットとして利用して、モデルには合成並列データを生成するための反復逆翻訳を組み込み、トレーニングデータセットを効果的に増強し、モデルの翻訳機能を強化します。
この研究は、データ増強、トレーニングパラメーターの最適化、および事前に訓練されたモデルの効果的な使用を通じて、モデルのパフォーマンスを改善するための包括的な戦略に焦点を当てています。
これらの方法論は、英語とテルグ語の両方で多様な文構造と言語的ニュアンスを処理できる堅牢な翻訳システムを作成することを目的としています。
この作業は、革新的なデータ処理手法の重要性と、低リソース言語のまばらなデータセットによってもたらされる制限を克服するための転送学習の可能性を強調しています。
この研究は機械翻訳の分野に貢献し、実際の文脈で英語とテルグ語のスピーカー間のコミュニケーションを改善しようとしています。

要約(オリジナル)

This paper presents a novel approach to constructing an English-to-Telugu translation model by leveraging transfer learning techniques and addressing the challenges associated with low-resource languages. Utilizing the Bharat Parallel Corpus Collection (BPCC) as the primary dataset, the model incorporates iterative backtranslation to generate synthetic parallel data, effectively augmenting the training dataset and enhancing the model’s translation capabilities. The research focuses on a comprehensive strategy for improving model performance through data augmentation, optimization of training parameters, and the effective use of pre-trained models. These methodologies aim to create a robust translation system that can handle diverse sentence structures and linguistic nuances in both English and Telugu. This work highlights the significance of innovative data handling techniques and the potential of transfer learning in overcoming limitations posed by sparse datasets in low-resource languages. The study contributes to the field of machine translation and seeks to improve communication between English and Telugu speakers in practical contexts.

arxiv情報

著者 Abhiram Reddy Yanampally
発行日 2025-04-08 11:09:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | High-Resource Translation:Turning Abundance into Accessibility はコメントを受け付けていません

Unsupervised Location Mapping for Narrative Corpora

要約

この作品は、監視されていないロケーションマッピングのタスクを提示します。これは、個々の物語の軌跡を、大きな物語のセットが行われる場所の空間地図にマッピングしようとします。
タスクの基本と一般性にもかかわらず、物語テキストの空間マッピングに対処する作業はほとんどありませんでした。
タスクは2つの部分で構成されています。(1)テキストのセットに記載されている場所に「マップ」を誘導し、(2)単一の物語から軌跡を抽出し、マップ上に配置する。
大規模な言語モデルのコンテキスト長を増やす際の最近の進歩に続いて、ラベルのセットを事前に定義することなく、完全に監視されていない方法でこのタスクのパイプラインを提案します。
(1)ホロコーストの証言と(2)湖水地方の執筆、すなわち、英国湖水地方の旅行に関する多世紀の文献で、2つの異なるドメインでこの方法をテストします。
タスクの固有の評価と外因性の両方の評価を実行し、結果を奨励し、それによりタスクのベンチマークと評価慣行を設定し、課題を強調します。

要約(オリジナル)

This work presents the task of unsupervised location mapping, which seeks to map the trajectory of an individual narrative on a spatial map of locations in which a large set of narratives take place. Despite the fundamentality and generality of the task, very little work addressed the spatial mapping of narrative texts. The task consists of two parts: (1) inducing a “map” with the locations mentioned in a set of texts, and (2) extracting a trajectory from a single narrative and positioning it on the map. Following recent advances in increasing the context length of large language models, we propose a pipeline for this task in a completely unsupervised manner without predefining the set of labels. We test our method on two different domains: (1) Holocaust testimonies and (2) Lake District writing, namely multi-century literature on travels in the English Lake District. We perform both intrinsic and extrinsic evaluations for the task, with encouraging results, thereby setting a benchmark and evaluation practices for the task, as well as highlighting challenges.

arxiv情報

著者 Eitan Wagner,Renana Keydar,Omri Abend
発行日 2025-04-08 12:06:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Unsupervised Location Mapping for Narrative Corpora はコメントを受け付けていません

On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation

要約

大規模な言語モデル(LLMS)を使用した検索された生成(RAG)は、コーパスから取得された関連するパッセージを活用することにより、多言語質問(QA)タスクで強力なパフォーマンスを実証しました。
多言語RAG(MRAG)では、検索されたパッセージはユーザーが入力したクエリ以外の言語で記述でき、LLMSが提供された情報を効果的に利用することが困難になります。
最近の調査では、多言語のコーパスから文章を取得することで、特に低リソース言語の場合、ぼろのパフォーマンスが向上する可能性があることが示唆されています。
ただし、LLMがさまざまな種類の多言語コンテキストを活用して正確な回答を生成できる範囲は、 *検索品質から独立して、依然として考えられていません。
この論文では、(i)その言語に関係なく関連する箇所を一貫して使用するLLMSの能力の広範な評価を実施し、(ii)予想される言語で応答し、(iii)複数の「気を散らす」異なる言語でのパッセージがコンテキストで提供されている場合でも、関連する箇所に焦点を当てます。
合計48の言語をカバーする3つのQAデータセットにわたって4つのLLMを使用した実験により、LLMが驚くべき能力が驚くべき能力を明らかにしていますが、関連する情報を実行中の文章から抽出しますが、正しい言語で完全な回答を策定するはるかに弱い能力です。
私たちの分析は、精度と特徴の属性技術の両方に基づいており、気を散らすパッセージが言語に関係なく答えの質に悪影響を与えることをさらに示しています。
ただし、クエリ言語のディストラクタは、わずかに強い影響を及ぼします。
まとめると、私たちの調査結果は、LLMSがMRAGシステムでコンテキストをどのように利用するかについての理解を深め、将来の改善の方向性を提供します。

要約(オリジナル)

Retrieval-augmented generation (RAG) with large language models (LLMs) has demonstrated strong performance in multilingual question-answering (QA) tasks by leveraging relevant passages retrieved from corpora. In multilingual RAG (mRAG), the retrieved passages can be written in languages other than that of the query entered by the user, making it challenging for LLMs to effectively utilize the provided information. Recent research suggests that retrieving passages from multilingual corpora can improve RAG performance, particularly for low-resource languages. However, the extent to which LLMs can leverage different kinds of multilingual contexts to generate accurate answers, *independently from retrieval quality*, remains understudied. In this paper, we conduct an extensive assessment of LLMs’ ability to (i) make consistent use of a relevant passage regardless of its language, (ii) respond in the expected language, and (iii) focus on the relevant passage even when multiple `distracting’ passages in different languages are provided in the context. Our experiments with four LLMs across three QA datasets covering a total of 48 languages reveal a surprising ability of LLMs to extract the relevant information from out-language passages, but a much weaker ability to formulate a full answer in the correct language. Our analysis, based on both accuracy and feature attribution techniques, further shows that distracting passages negatively impact answer quality regardless of their language. However, distractors in the query language exert a slightly stronger influence. Taken together, our findings deepen the understanding of how LLMs utilize context in mRAG systems, providing directions for future improvements.

arxiv情報

著者 Jirui Qi,Raquel Fernández,Arianna Bisazza
発行日 2025-04-08 12:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation はコメントを受け付けていません

NativQA Framework: Enabling LLMs with Native, Local, and Everyday Knowledge

要約

大規模な言語モデル(LLMS)の急速な進歩は、文化的バイアス、公平性、および多様な言語的および過小評価されている地域の文脈におけるそれらの適用性に関する懸念を提起しました。
LLMSの機能を強化およびベンチマークするには、多言語、ローカル、および文化的コンテキストに焦点を当てた大規模なリソースを開発する必要があります。
この研究では、ネイティブ言語で大規模、文化的、地域的に整列したQAデータセットをシームレスに構築できるフレームワークであるNativqaを提案します。
このフレームワークは、ユーザー定義のシードクエリを使用し、検索エンジンを活用して、場所固有の日常情報を収集します。
非常に低リソースから高リソースの言語に至るまで、24か国の39の場所と7つの言語で評価されており、その結果、300K以上の質問回答(QA)ペアがありました。
開発されたリソースは、LLMベンチマークとさらに微調整に使用できます。
このフレームワークは、コミュニティ(https://gitlab.com/nativqa/nativqa-framework)で公開されています。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has raised concerns about cultural bias, fairness, and their applicability in diverse linguistic and underrepresented regional contexts. To enhance and benchmark the capabilities of LLMs, there is a need to develop large-scale resources focused on multilingual, local, and cultural contexts. In this study, we propose a framework, NativQA, that can seamlessly construct large-scale, culturally and regionally aligned QA datasets in native languages. The framework utilizes user-defined seed queries and leverages search engines to collect location-specific, everyday information. It has been evaluated across 39 locations in 24 countries and in 7 languages, ranging from extremely low-resource to high-resource languages, which resulted over 300K Question Answer (QA) pairs. The developed resources can be used for LLM benchmarking and further fine-tuning. The framework has been made publicly available for the community (https://gitlab.com/nativqa/nativqa-framework).

arxiv情報

著者 Firoj Alam,Md Arid Hasan,Sahinur Rahman Laskar,Mucahid Kutlu,Shammur Absar Chowdhury
発行日 2025-04-08 13:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, F.2.2 | NativQA Framework: Enabling LLMs with Native, Local, and Everyday Knowledge はコメントを受け付けていません

TempRetriever: Fusion-based Temporal Dense Passage Retrieval for Time-Sensitive Questions

要約

時間的認識は、多くの情報検索タスク、特にドキュメントの関連性がクエリの時間コンテキストとの整合に依存するシナリオで重要です。
BM25や密な通過回収(DPR)などの従来のアプローチは、語彙的またはセマンティックな類似性に焦点を当てていますが、クエリとドキュメントの間の時間的整列を無視する傾向があります。
クエリ日付とドキュメントタイムスタンプの両方を検索プロセスに埋め込むことにより、一時的な情報を明示的に組み込むDPRの新しい拡張であるTempretrieverを提案します。
これにより、文脈的に関連するだけでなく、クエリの時間的意図と整合するパッセージを取得できます。
Tempretrieverを2つの大規模なデータセットArchivalqaとChroniclingAmericaqaで評価し、複数のメトリックにわたるベースライン検索モデルに対する優位性を示しています。
Tempretrieverは、Archivalqaの標準DPRと比較して、Top-1検索精度の6.63 \%の改善とNDCG@10の3.79%の改善を達成します。
同様に、ChroniclingAmericaqaの場合、Tempretrieverは、NDCG@10のTop-1検索精度の9.56 \%の改善と4.68 \%の改善を示します。
また、トレーニング中の時間的不整合に対処することにより、回収パフォーマンスをさらに強化する新しい時間ベースのネガティブサンプリング戦略を提案します。
私たちの結果は、密な検索システムにおける時間的側面の重要性を強調し、時間を手にした通過回収のための新しいベンチマークを確立します。

要約(オリジナル)

Temporal awareness is crucial in many information retrieval tasks, particularly in scenarios where the relevance of documents depends on their alignment with the query’s temporal context. Traditional approaches such as BM25 and Dense Passage Retrieval (DPR) focus on lexical or semantic similarity but tend to neglect the temporal alignment between queries and documents, which is essential for time-sensitive tasks like temporal question answering (TQA). We propose TempRetriever, a novel extension of DPR that explicitly incorporates temporal information by embedding both the query date and document timestamp into the retrieval process. This allows retrieving passages that are not only contextually relevant but also aligned with the temporal intent of queries. We evaluate TempRetriever on two large-scale datasets ArchivalQA and ChroniclingAmericaQA demonstrating its superiority over baseline retrieval models across multiple metrics. TempRetriever achieves a 6.63\% improvement in Top-1 retrieval accuracy and a 3.79\% improvement in NDCG@10 compared to the standard DPR on ArchivalQA. Similarly, for ChroniclingAmericaQA, TempRetriever exhibits a 9.56\% improvement in Top-1 retrieval accuracy and a 4.68\% improvement in NDCG@10. We also propose a novel, time-based negative sampling strategy which further enhances retrieval performance by addressing temporal misalignment during training. Our results underline the importance of temporal aspects in dense retrieval systems and establish a new benchmark for time-aware passage retrieval.

arxiv情報

著者 Abdelrahman Abdallah,Bhawna Piryani,Jonas Wallat,Avishek Anand,Adam Jatowt
発行日 2025-04-08 13:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | TempRetriever: Fusion-based Temporal Dense Passage Retrieval for Time-Sensitive Questions はコメントを受け付けていません

Llama-3-Nanda-10B-Chat: An Open Generative Large Language Model for Hindi

要約

適度にリソースのある言語向けの高品質の大型言語モデル(LLMS)を開発することは、データの可用性、モデル適応、および評価における独自の課題を提示します。
Llama-3-Nanda-10b-chat、またはNandaは、オープンソースのヒンディー語言語モデルの境界を押し広げるように設計された、最先端のヒンディー語中心の指導チューニング生成LLMです。
Llama-3-8Bに基づいて構築されたNandaは、拡張されたトランスブロックを使用した連続前トレーニングを組み込んでおり、Llama Pro方法論を活用しています。
重要な課題は、高品質のヒンディー語テキストデータの利用可能性が限られていることでした。
これには、厳密なデータキュレーション、増強、戦略的バイリンガルトレーニングを通じて、ヒンディー語と英語のコーパスのバランスを取り、言語間知識移転を最適化しました。
100億のパラメーターを備えたナンダは、最高のパフォーマンスのオープンソースヒンディー語と同様のスケールの多言語モデルの1つであり、多くの既存のモデルよりも大きな利点を示しています。
トレーニング戦略、微調整技術、安全アライメント、および評価メトリックに関する詳細な議論を提供し、これらのアプローチによりナンダが最先端の結果を達成できるようになったことを示します。
オープンソーシングナンダにより、ヒンディー語のLLMでの研究を進め、学界、産業、公共サービス全体の幅広い現実世界のアプリケーションをサポートすることを目指しています。

要約(オリジナル)

Developing high-quality large language models (LLMs) for moderately resourced languages presents unique challenges in data availability, model adaptation, and evaluation. We introduce Llama-3-Nanda-10B-Chat, or Nanda for short, a state-of-the-art Hindi-centric instruction-tuned generative LLM, designed to push the boundaries of open-source Hindi language models. Built upon Llama-3-8B, Nanda incorporates continuous pre-training with expanded transformer blocks, leveraging the Llama Pro methodology. A key challenge was the limited availability of high-quality Hindi text data; we addressed this through rigorous data curation, augmentation, and strategic bilingual training, balancing Hindi and English corpora to optimize cross-linguistic knowledge transfer. With 10 billion parameters, Nanda stands among the top-performing open-source Hindi and multilingual models of similar scale, demonstrating significant advantages over many existing models. We provide an in-depth discussion of training strategies, fine-tuning techniques, safety alignment, and evaluation metrics, demonstrating how these approaches enabled Nanda to achieve state-of-the-art results. By open-sourcing Nanda, we aim to advance research in Hindi LLMs and support a wide range of real-world applications across academia, industry, and public services.

arxiv情報

著者 Monojit Choudhury,Shivam Chauhan,Rocktim Jyoti Das,Dhruv Sahnan,Xudong Han,Haonan Li,Aaryamonvikram Singh,Alok Anil Jadhav,Utkarsh Agarwal,Mukund Choudhary,Debopriyo Banerjee,Fajri Koto,Junaid Bhat,Awantika Shukla,Samujjwal Ghosh,Samta Kamboj,Onkar Pandit,Lalit Pradhan,Rahul Pal,Sunil Sahu,Soundar Doraiswamy,Parvez Mullah,Ali El Filali,Neha Sengupta,Gokul Ramakrishnan,Rituraj Joshi,Gurpreet Gosal,Avraham Sheinin,Natalia Vassilieva,Preslav Nakov
発行日 2025-04-08 13:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Llama-3-Nanda-10B-Chat: An Open Generative Large Language Model for Hindi はコメントを受け付けていません

Multi-Sense Embeddings for Language Models and Knowledge Distillation

要約

トランスベースの大手言語モデル(LLMS)は、周囲のコンテキストに応じて同じトークンの異なる(連続)表現を生成するコンテキスト埋め込みに依存しています。
それにもかかわらず、単語とトークンは通常、限られた数の感覚(または意味)を持っています。
言語での使用の範囲をキャプチャするために、各トークンのドロップイン交換としてマルチセンス埋め込みを提案します。
Sense Embedding Dictionaryを構築するために、LLMによって生成された埋め込みにクラスタリングアルゴリズムを適用し、クラスターセンターを代表的な感覚埋め込みと見なします。
さらに、Sense Dictionaryを活用して、はるかに大きなベースLLMモデルから感覚を模倣し、競争力のあるパフォーマンスを維持しながら、重要なスペースと推論の時間節約を提供する小規模な学生モデルを学習する新しい知識蒸留方法を提案します。
さまざまなベンチマークでの徹底的な実験を介して、感覚の埋め込みと知識蒸留アプローチの有効性を紹介します。
https://github.com/qitong-wang/sensedictでコードを共有します

要約(オリジナル)

Transformer-based large language models (LLMs) rely on contextual embeddings which generate different (continuous) representations for the same token depending on its surrounding context. Nonetheless, words and tokens typically have a limited number of senses (or meanings). We propose multi-sense embeddings as a drop-in replacement for each token in order to capture the range of their uses in a language. To construct a sense embedding dictionary, we apply a clustering algorithm to embeddings generated by an LLM and consider the cluster centers as representative sense embeddings. In addition, we propose a novel knowledge distillation method that leverages the sense dictionary to learn a smaller student model that mimics the senses from the much larger base LLM model, offering significant space and inference time savings, while maintaining competitive performance. Via thorough experiments on various benchmarks, we showcase the effectiveness of our sense embeddings and knowledge distillation approach. We share our code at https://github.com/Qitong-Wang/SenseDict

arxiv情報

著者 Qitong Wang,Mohammed J. Zaki,Georgios Kollias,Vasileios Kalantzis
発行日 2025-04-08 13:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multi-Sense Embeddings for Language Models and Knowledge Distillation はコメントを受け付けていません

Improving Privacy Benefits of Redaction

要約

自然なテキストデータを消毒するために使用できる新しい編集方法論を提案します。
私たちの新しいテクニックは、より低い編集レベルを維持しながら、他の最先端のテクニックよりも優れたプライバシーの利点を提供します。

要約(オリジナル)

We propose a novel redaction methodology that can be used to sanitize natural text data. Our new technique provides better privacy benefits than other state of the art techniques while maintaining lower redaction levels.

arxiv情報

著者 Vaibhav Gusain,Douglas Leith
発行日 2025-04-08 13:47:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | Improving Privacy Benefits of Redaction はコメントを受け付けていません

Efficient Response Generation Strategy Selection for Fine-Tuning Large Language Models Through Self-Aligned Perplexity

要約

大規模な言語モデル(LLMS)の微調整は、通常、大量の入出力ペアの生産に依存しています。
しかし、特定の質問では、多くの有効な出力が存在する可能性があります。
実際には、これらの出力は、多くの場合、教師モデルから知識を蒸留することによって導き出され、特定の教師モデルまたは採用された戦略によって異なる場合があります。
最近の調査結果は、これらのトレーニング出力がどのように生成されるかが微調整されたモデルのパフォーマンスに大きな影響を与え、重要な質問を提起することを示しています。
各候補者を徹底的にトレーニングして評価するのではなく、このペーパーでは、生成されたデータの小さなサブセットを評価して特定のターゲットLLMに対する適合性を推定するスケーラブルな近似方法を提案します。
私たちの中心的な考え方は、効果的な出力はターゲットLLMに馴染みがあるはずであるということです。
以前の研究では困惑に精通しているが、理論的分析と実用的な観察を通じて「親しみやすさ」を特徴付ける際に困惑が最適である可能性があることがわかっています。
これに対処するために、自己整合した困惑を紹介します。これは、候補者の出力がターゲットLLMのスタイルと推論パターンにどのように密接に接着するかをキャプチャする新しいメトリックです。
このようにして、小さなサンプルで最も効果的な生成戦略を特定し、それを適用して完全なトレーニングセットを作成できます。
選択した方法によって生成されたデータに関するトレーニングが、多様な推論に焦点を当てたベンチマーク全体で大幅な改善をもたらすことを実証します。

要約(オリジナル)

Fine-tuning large language models (LLMs) typically relies on producing large sets of input-output pairs. Yet for a given question, there can be many valid outputs. In practice, these outputs are often derived by distilling knowledge from teacher models, and they can vary depending on the specific teacher model or prompting strategy employed. Recent findings show that how these training outputs are generated can significantly affect the performance of the fine-tuned model, raising an important question: how do we pick the best data generation method from among numerous possibilities? Rather than exhaustively training and evaluating on each candidate, this paper proposes a scalable approximate method that assesses a small subset of generated data to estimate its suitability for a specific target LLM. Our central idea is that effective outputs should be familiar to the target LLM. While previous work measures familiarity with perplexity, we find that perplexity might be suboptimal in characterizing ‘familiarity’ through theoretical analysis and practical observations. To address this, we introduce self-aligned perplexity, a novel metric capturing how closely candidate outputs adhere to the target LLM’s own style and reasoning patterns. In this way, we can identify the most effective generation strategy on a small sample, then apply it to produce the complete training set. We demonstrate that training on data generated by the chosen method yields significant improvements across diverse reasoning-focused benchmarks.

arxiv情報

著者 Xuan Ren,Qi Chen,Lingqiao Liu
発行日 2025-04-08 13:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Response Generation Strategy Selection for Fine-Tuning Large Language Models Through Self-Aligned Perplexity はコメントを受け付けていません