Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models

要約

自己改善は、トレーニング前、トレーニング後、テスト時間推論の大規模な言語モデル(LLM)のメカニズムです。
この検証に基づいて、モデルが独自の出力、フィルター、またはリワイトデータを検証し、フィルター処理されたデータを蒸留するフレームワークを調査します。
いくつかの経験的成功にもかかわらず、基本的な理解はまだ不足しています。
この作業では、LLMの自己改善に関する包括的でモジュール式の制御された研究を開始します。
私たちは、自己改善のための数学的定式化を提供します。これは、主に、世代の検証ギャップとして形式化する量によって支配されています。
さまざまなモデルファミリやタスクを使用した実験を通じて、自己改善のスケーリング現象を発見します。これは、モデルのトレーニング前のフロップとともに、世代の検証ギャップのバリアントを単調にスケーリングします。
また、自己改善がいつ可能か、反復的な自己改善手順、およびそのパフォーマンスを改善する方法を調べます。
私たちの調査結果は、LLMの自己改善の実用的な意味を促進するだけでなく、その能力と境界に関する将来の研究のための多くの道を開いています。

要約(オリジナル)

Self-improvement is a mechanism in Large Language Model (LLM) pre-training, post-training and test-time inference. We explore a framework where the model verifies its own outputs, filters or reweights data based on this verification, and distills the filtered data. Despite several empirical successes, a fundamental understanding is still lacking. In this work, we initiate a comprehensive, modular and controlled study on LLM self-improvement. We provide a mathematical formulation for self-improvement, which is largely governed by a quantity which we formalize as the generation-verification gap. Through experiments with various model families and tasks, we discover a scaling phenomenon of self-improvement — a variant of the generation-verification gap scales monotonically with the model pre-training flops. We also examine when self-improvement is possible, an iterative self-improvement procedure, and ways to improve its performance. Our findings not only advance understanding of LLM self-improvement with practical implications, but also open numerous avenues for future research into its capabilities and boundaries.

arxiv情報

著者 Yuda Song,Hanlin Zhang,Carson Eisenach,Sham Kakade,Dean Foster,Udaya Ghai
発行日 2025-02-25 16:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models はコメントを受け付けていません

Historical German Text Normalization Using Type- and Token-Based Language Modeling

要約

スペルの歴史的なバリエーションは、歴史的なデジタル化されたテキストでのフルテキスト検索または自然言語処理に課題となります。
歴史的な正書法と現代的なスペルとのギャップを最小限に抑えるために、通常、歴史的資料の自動正式な正規化が追求されます。
このレポートは、cからのドイツ文学テキストの正規化システムを提案します。
1700-1900、平行コーパスで訓練された。
提案されたシステムは、トランス語モデルを使用した機械学習アプローチを使用し、エンコーダーデコーダーモデルを組み合わせて個々の単語タイプを正常化し、事前に訓練された因果言語モデルをコンテキスト内で調整します。
広範な評価は、提案されたシステムが、はるかに大きい完全なエンドツーエンドの文ベースの正規化システムに匹敵する最先端の精度を提供し、事前に訓練されたトランスの大手言語モデルを微調整することを示しています。
ただし、モデルが一般化するのが難しいため、および広範な高品質の並列データの欠如により、履歴テキストの正規化は依然として課題のままです。

要約(オリジナル)

Historic variations of spelling poses a challenge for full-text search or natural language processing on historical digitized texts. To minimize the gap between the historic orthography and contemporary spelling, usually an automatic orthographic normalization of the historical source material is pursued. This report proposes a normalization system for German literary texts from c. 1700-1900, trained on a parallel corpus. The proposed system makes use of a machine learning approach using Transformer language models, combining an encoder-decoder model to normalize individual word types, and a pre-trained causal language model to adjust these normalizations within their context. An extensive evaluation shows that the proposed system provides state-of-the-art accuracy, comparable with a much larger fully end-to-end sentence-based normalization system, fine-tuning a pre-trained Transformer large language model. However, the normalization of historical text remains a challenge due to difficulties for models to generalize, and the lack of extensive high-quality parallel data.

arxiv情報

著者 Anton Ehrmanntraut
発行日 2025-02-25 17:24:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Historical German Text Normalization Using Type- and Token-Based Language Modeling はコメントを受け付けていません

How Does Code Pretraining Affect Language Model Task Performance?

要約

大規模な言語モデルは、自然言語とソースコードなどの非言語データの両方を含むコーパスでますます訓練されています。
プログラミング関連のタスクを支援することは別として、事前の証拠は、corporaを事前に移動するコードを含めることで、他の無関係なタスクのパフォーマンスを改善する可能性があることを示唆しています。
ここでこれを行います。
2つの異なる設定で自然言語とコードを挿入するデータセット上の言語モデルを前処理します。加算式では、事前トレーニング中に見られるデータの総量が一定に保たれます。
言語データの量が一定に保たれている競争力。
事前トレーニング混合物が(a)ビッグベンチベンチマークに含まれるタスクの多様なコレクションと(b)セマンティック解析と構文変換の一般化精度によって測定される構成性のパフォーマンスにどのように影響するかを研究します。
コードのより高い割合で前orainingが、構造化された出力(セマンティック解析など)や数学を含む構成タスクのパフォーマンスを改善することがわかります。
逆に、コード混合物を増やすと、構文や形態などの言語構造に感度が必要なタスクや、実際の知識を測定するタスクなど、他のタスクのパフォーマンスに害を及ぼす可能性があります。

要約(オリジナル)

Large language models are increasingly trained on corpora containing both natural language and non-linguistic data like source code. Aside from aiding programming-related tasks, anecdotal evidence suggests that including code in pretraining corpora may improve performance on other, unrelated tasks, yet to date no work has been able to establish a causal connection by controlling between language and code data. Here we do just this. We pretrain language models on datasets which interleave natural language and code in two different settings: additive, in which the total volume of data seen during pretraining is held constant; and competitive, in which the volume of language data is held constant. We study how the pretraining mixture affects performance on (a) a diverse collection of tasks included in the BigBench benchmark, and (b) compositionality, measured by generalization accuracy on semantic parsing and syntactic transformations. We find that pretraining on higher proportions of code improves performance on compositional tasks involving structured output (like semantic parsing), and mathematics. Conversely, increase code mixture can harm performance on other tasks, including on tasks that requires sensitivity to linguistic structure such as syntax or morphology, and tasks measuring real-world knowledge.

arxiv情報

著者 Jackson Petty,Sjoerd van Steenkiste,Tal Linzen
発行日 2025-02-25 17:31:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | How Does Code Pretraining Affect Language Model Task Performance? はコメントを受け付けていません

Monte Carlo Temperature: a robust sampling strategy for LLM’s uncertainty quantification methods

要約

大規模な言語モデル(LLMS)の不確実性の定量化(UQ)は、特に誤った出力が深刻な結果をもたらす重要なアプリケーションでは、安全で信頼できる展開に不可欠です。
現在のUQメソッドは、通常、非ゼロ温度サンプリングを使用してモデルを複数回クエリすることに依存して、不確実性の推定のために多様な出力を生成します。
ただし、特定の温度パラメーターを選択することの影響は研究されており、私たちの分析により、温度が不確実性の推定の質に基本的な役割を果たすことが明らかになりました。
最適な温度値を識別する従来のアプローチには、新しいモデルデータセットの組み合わせごとに繰り返す必要がある高価なハイパーパラメーター最適化(HPO)が必要です。
温度キャリブレーションの必要性を排除する堅牢なサンプリング戦略であるモンテカルロ温度(MCT)を提案します。
1)MCTは、広範囲の温度でより堅牢な不確実性の推定値を提供し、2)MCTはHPOに依存しない固定温度戦略を置き換えることでUQメソッドのパフォーマンスを向上させ、3)MCTは統計パリティを達成します。
Oracle温度は、よく調整されているが計算上の高価なHPOプロセスの理想的な結果を表しています。
これらの調査結果は、温度パラメーターのキャリブレーションの計算負担なしで効果的なUQを達成できることを示しています。

要約(オリジナル)

Uncertainty quantification (UQ) in Large Language Models (LLMs) is essential for their safe and reliable deployment, particularly in critical applications where incorrect outputs can have serious consequences. Current UQ methods typically rely on querying the model multiple times using non-zero temperature sampling to generate diverse outputs for uncertainty estimation. However, the impact of selecting a given temperature parameter is understudied, and our analysis reveals that temperature plays a fundamental role in the quality of uncertainty estimates. The conventional approach of identifying optimal temperature values requires expensive hyperparameter optimization (HPO) that must be repeated for each new model-dataset combination. We propose Monte Carlo Temperature (MCT), a robust sampling strategy that eliminates the need for temperature calibration. Our analysis reveals that: 1) MCT provides more robust uncertainty estimates across a wide range of temperatures, 2) MCT improves the performance of UQ methods by replacing fixed-temperature strategies that do not rely on HPO, and 3) MCT achieves statistical parity with oracle temperatures, which represent the ideal outcome of a well-tuned but computationally expensive HPO process. These findings demonstrate that effective UQ can be achieved without the computational burden of temperature parameter calibration.

arxiv情報

著者 Nicola Cecere,Andrea Bacciu,Ignacio Fernández Tobías,Amin Mantrach
発行日 2025-02-25 17:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Monte Carlo Temperature: a robust sampling strategy for LLM’s uncertainty quantification methods はコメントを受け付けていません

KiRAG: Knowledge-Driven Iterative Retriever for Enhancing Retrieval-Augmented Generation

要約

反復的な検索上位生成(IRAG)モデルは、マルチホップ質問応答(QA)に効果的なアプローチを提供します。
ただし、検索プロセスは2つの重要な課題に直面しています。(1)無関係な文書または事実上不正確な想像力によって混乱する可能性があります。
(2)レトリバーは、マルチステップの推論で進化する情報のニーズに動的に適応するように設計されていないため、各反復ステップで必要な欠落した情報を特定して検索することは困難です。
したがって、Kiragを提案します。Kiragは、知識主導の反復レトリバーモデルを使用してIRAGの検索プロセスを強化します。
具体的には、Kiragはドキュメントを知識トリプルに分解し、これらのトリプルを使用して反復的な検索を実行して、事実上信頼できる検索プロセスを可能にします。
さらに、Kiragは推論を検索プロセスに統合して、情報のギャップを橋渡しし、進化する情報のニーズに効果的に適応する知識を動的に識別および取得します。
経験的結果は、KIRAGが既存のIRAGモデルを大幅に上回ることを示しており、マルチホップQAでは、R@3で平均9.40%、F1で5.14%の平均改善があります。

要約(オリジナル)

Iterative retrieval-augmented generation (iRAG) models offer an effective approach for multi-hop question answering (QA). However, their retrieval process faces two key challenges: (1) it can be disrupted by irrelevant documents or factually inaccurate chain-of-thoughts; (2) their retrievers are not designed to dynamically adapt to the evolving information needs in multi-step reasoning, making it difficult to identify and retrieve the missing information required at each iterative step. Therefore, we propose KiRAG, which uses a knowledge-driven iterative retriever model to enhance the retrieval process of iRAG. Specifically, KiRAG decomposes documents into knowledge triples and performs iterative retrieval with these triples to enable a factually reliable retrieval process. Moreover, KiRAG integrates reasoning into the retrieval process to dynamically identify and retrieve knowledge that bridges information gaps, effectively adapting to the evolving information needs. Empirical results show that KiRAG significantly outperforms existing iRAG models, with an average improvement of 9.40% in R@3 and 5.14% in F1 on multi-hop QA.

arxiv情報

著者 Jinyuan Fang,Zaiqiao Meng,Craig Macdonald
発行日 2025-02-25 17:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | KiRAG: Knowledge-Driven Iterative Retriever for Enhancing Retrieval-Augmented Generation はコメントを受け付けていません

Queue management for slo-oriented large language model serving

要約

大規模な言語モデル(LLM)は、クラウドプロバイダーにとってますます重要なワークロードになりつつあります。
既存のLLMサービングシステムは、ChatbotsやCoding Assistantなどのインタラクティブなリクエストに焦点を当てており、Latency SLO要件が厳しくなります。
ただし、そのようなシステムがインタラクティブな要求とともにスロをリラックスしたバッチリクエストを実行すると、マルチプレックスが不十分で非効率的なリソース利用につながります。
これらの課題に対処するために、LLMサービングのキュー管理システムであるQLMを提案します。
QLMは、リクエストキューにあるさまざまなモデルとSLOにわたってバッチおよびインタラクティブなリクエストを維持します。
リクエストキューの最適な順序付けは、高いリソースの利用を確保しながらSLOを維持するために重要です。
この最適な順序を生成するために、QLMはリクエストキューのリクエストの待機時間を推定するリクエスト待機時間(RWT)推定器を使用します。
これらの推定値は、グローバルスケジューラによって使用され、リクエストプル、リクエストの立ち退き、ロードバランス、モデルスワッピングなど、LLMサービングオペレーション(LSO)を調整します。
実際のLLMサービングデータセットを使用した不均一なGPUデバイスとモデルの評価は、QLMがSLOの達成度を40-90%改善し、他の最先端のLLMサービングと比較してデバイスの使用率を維持または改善しながら、20-400%改善することを示しています。
システム。
QLMの評価は、クラウドプロバイダーの生産要件に基づいています。
QLMはhttps://www.github.com/qlm-project/qlmで公開されています。

要約(オリジナル)

Large language model (LLM) serving is becoming an increasingly critical workload for cloud providers. Existing LLM serving systems focus on interactive requests, such as chatbots and coding assistants, with tight latency SLO requirements. However, when such systems execute batch requests that have relaxed SLOs along with interactive requests, it leads to poor multiplexing and inefficient resource utilization. To address these challenges, we propose QLM, a queue management system for LLM serving. QLM maintains batch and interactive requests across different models and SLOs in a request queue. Optimal ordering of the request queue is critical to maintain SLOs while ensuring high resource utilization. To generate this optimal ordering, QLM uses a Request Waiting Time (RWT) Estimator that estimates the waiting times for requests in the request queue. These estimates are used by a global scheduler to orchestrate LLM Serving Operations (LSOs) such as request pulling, request eviction, load balancing, and model swapping. Evaluation on heterogeneous GPU devices and models with real-world LLM serving dataset shows that QLM improves SLO attainment by 40-90% and throughput by 20-400% while maintaining or improving device utilization compared to other state-of-the-art LLM serving systems. QLM’s evaluation is based on the production requirements of a cloud provider. QLM is publicly available at https://www.github.com/QLM-project/QLM.

arxiv情報

著者 Archit Patke,Dhemath Reddy,Saurabh Jha,Haoran Qiu,Christian Pinto,Chandra Narayanaswami,Zbigniew Kalbarczyk,Ravishankar Iyer
発行日 2025-02-25 17:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG | Queue management for slo-oriented large language model serving はコメントを受け付けていません

GLEAN: Generalized Category Discovery with Diverse and Quality-Enhanced LLM Feedback

要約

一般化されたカテゴリ発見(GCD)は、既知のカテゴリからの限定されたラベル付きデータを使用して、非標識データの既知と新しいカテゴリの両方を認識することを目的とする実用的で挑戦的なオープンワールドタスクです。
監督が不足しているため、以前のGCDメソッドは、混乱するインスタンスのエラーを修正することの難しさや、発見されたクラスターの意味的な意味を効果的に明らかにして活用できないなど、重大な課題に直面しています。
したがって、実際の適用性には通常、追加の注釈が必要です。
ただし、人間の注釈は非常に費用がかかり、非効率的です。
これらの問題に対処するために、GLEANを提案します。Gleanは、多様で品質強化されたLLMフィードバックから積極的に学習する一般化されたカテゴリ発見のための統一されたフレームワークであると提案します。
当社のアプローチは、次の3つの異なるタイプのLLMフィードバックを活用します。(1)インスタンスレベルのコントラスト機能を改善し、(2)カテゴリの説明を生成し、(3)不確実なインスタンスをLLM選択カテゴリの説明に合わせます。
広範な実験は、多様なデータセット、メトリック、監督設定にわたる最先端のモデルよりも\ MethodNameの優れた性能を示しています。
私たちのコードは、https://github.com/amazon-science/gleanで入手できます。

要約(オリジナル)

Generalized Category Discovery (GCD) is a practical and challenging open-world task that aims to recognize both known and novel categories in unlabeled data using limited labeled data from known categories. Due to the lack of supervision, previous GCD methods face significant challenges, such as difficulty in rectifying errors for confusing instances, and inability to effectively uncover and leverage the semantic meanings of discovered clusters. Therefore, additional annotations are usually required for real-world applicability. However, human annotation is extremely costly and inefficient. To address these issues, we propose GLEAN, a unified framework for generalized category discovery that actively learns from diverse and quality-enhanced LLM feedback. Our approach leverages three different types of LLM feedback to: (1) improve instance-level contrastive features, (2) generate category descriptions, and (3) align uncertain instances with LLM-selected category descriptions. Extensive experiments demonstrate the superior performance of \MethodName over state-of-the-art models across diverse datasets, metrics, and supervision settings. Our code is available at https://github.com/amazon-science/Glean.

arxiv情報

著者 Henry Peng Zou,Siffi Singh,Yi Nian,Jianfeng He,Jason Cai,Saab Mansour,Hang Su
発行日 2025-02-25 18:11:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | GLEAN: Generalized Category Discovery with Diverse and Quality-Enhanced LLM Feedback はコメントを受け付けていません

Accelerating Unbiased LLM Evaluation via Synthetic Feedback

要約

新しい大手言語モデル(LLMS)を開発する場合、重要なステップは、多くの場合、外部フィードバックに基づいて参照モデルに対して勝率を計算することにより、最終的なパフォーマンスを評価することです。
人間のフィードバックは、特に一貫性、読みやすさ、人間の期待との調整などの微妙な資質を捉えるためのゴールドスタンダードです。
ただし、人間の評価はコストがかかります – 大規模なハイテク企業であっても – アクティブユーザーと一緒に行われると、ユーザーエクスペリエンスに悪影響を与える可能性があります。
有望な代替案は、合成フィードバックです。ここでは、評価は報酬モデルを含む他の大規模な言語モデルによって行われます。
これにより、費用のかかる人間の注釈の必要性が排除されますが、評価プロセスを歪める可能性のあるバイアスが導入されます。
この作業では、人間と合成のフィードバックを統合して人間の注釈への依存を減らしながら、偏りのない勝率計算を維持する統計的に原則的なフレームワークを提案します。
私たちの実験は、既製の合成評価者で最大12.2%、微調ューされたバリアントで最大24.8%の人間の注釈の減少を示しています。
一般化可能でスケーラブルで、ハイパーパラメーターの調整がないこととは別に、当社の方法は予測可能な注釈の節約を提供します。これは、データ依存特性に基づいて推定できます。

要約(オリジナル)

When developing new large language models (LLMs), a key step is evaluating their final performance, often by computing the win-rate against a reference model based on external feedback. Human feedback is the gold standard, particularly for capturing nuanced qualities like coherence, readability, and alignment with human expectations. However, human evaluations are costly — even for large tech companies — and when conducted with active users, they may negatively impact user experience. A promising alternative is synthetic feedback, where evaluations are conducted by other large language models, including reward models. While this eliminates the need for costly human annotations, it introduces biases that may distort the evaluation process. In this work, we propose a statistically principled framework that integrates human and synthetic feedback to reduce reliance on human annotations while maintaining unbiased win-rate calculations. Our experiments demonstrate a reduction in human annotations by up to 12.2% with an off-the-shelf synthetic evaluator and up to 24.8% with a finetuned variant. Apart from being generalizable, scalable, and free of hyper-parameter tuning, our method offers predictable annotation savings, which can be estimated based on data-dependent characteristics.

arxiv情報

著者 Zhaoyi Zhou,Yuda Song,Andrea Zanette
発行日 2025-02-25 18:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Accelerating Unbiased LLM Evaluation via Synthetic Feedback はコメントを受け付けていません

Rank1: Test-Time Compute for Reranking in Information Retrieval

要約

テスト時間計算を活用するために訓練された最初の再ランキングモデルであるRANK1を紹介します。
RANK1は、小規模モデルの性能を迅速に改善するために、蒸留のために推論言語モデル(つまり、OpenaiのO1、DeepseekのR1など)を使用することの検索内での適用性を示しています。
MS MarcoのクエリとパッセージからのR1の推論トレースの600,000を超える例のデータセットを収集してオープンソースします。
このデータセットでトレーニングされたモデルショー:(1)データセットに続く高度な推論と命令に関する最先端のパフォーマンス。
(2)ユーザー入力プロンプトに応答する能力により、分布から非常によく機能します。
(3)ユーザーまたはRAGベースのシステムに提供できる説明可能な推論チェーンがあります。
さらに、これらのモデルの量子化されたバージョンは、より少ない計算/メモリを使用しながら強力なパフォーマンスを保持していることを実証します。
全体として、RANK1は、テスト時間計算により、検索のための根本的に新しいタイプの説明可能でパフォーマンスのあるRerankerモデルが可能になることを示しています。

要約(オリジナル)

We introduce Rank1, the first reranking model trained to take advantage of test-time compute. Rank1 demonstrates the applicability within retrieval of using a reasoning language model (i.e. OpenAI’s o1, Deepseek’s R1, etc.) for distillation in order to rapidly improve the performance of a smaller model. We gather and open-source a dataset of more than 600,000 examples of R1 reasoning traces from queries and passages in MS MARCO. Models trained on this dataset show: (1) state-of-the-art performance on advanced reasoning and instruction following datasets; (2) work remarkably well out of distribution due to the ability to respond to user-input prompts; and (3) have explainable reasoning chains that can be given to users or RAG-based systems. Further, we demonstrate that quantized versions of these models retain strong performance while using less compute/memory. Overall, Rank1 shows that test-time compute allows for a fundamentally new type of explainable and performant reranker model for search.

arxiv情報

著者 Orion Weller,Kathryn Ricci,Eugene Yang,Andrew Yates,Dawn Lawrie,Benjamin Van Durme
発行日 2025-02-25 18:14:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | Rank1: Test-Time Compute for Reranking in Information Retrieval はコメントを受け付けていません

Compressing Language Models for Specialized Domains

要約

剪定や量子化などの圧縮技術は、ベンチマークパフォーマンスのパフォーマンスが少ないにもかかわらず、言語モデル(LMS)のより効率的な展開のためのソリューションを提供します。
ただし、一般的なLM圧縮方法は、特殊なドメインのパフォーマンスに悪影響を与える可能性があります(たとえば、生物医学的または合法)。
最近の作業はこれに対処しようとしていますが、計算上の高価なフルパラメーターの微調整が必​​要です。
この目的のために、圧縮されたLMSのドメイン性能を改善するための新しいトレーニングなしのアプローチであるクロスキャリブレーションを提案します。
私たちのアプローチは、ヘシアンベースの感度を効果的に活用して、ドメイン内と一般的なパフォーマンスの両方に影響を与える重みを特定します。
広範な実験を通じて、クロスキャリブレーションは、一般的なパフォーマンスを損なうことなく、ドメイン固有のタスク上の既存のアプローチを大幅に上回ることを実証します。
特に、これらの利益は追加の計算オーバーヘッドなしで発生し、汎用LMSからドメイン特異的圧縮モデルを抽出する顕著な可能性を示します。

要約(オリジナル)

Compression techniques such as pruning and quantization offer a solution for more efficient deployment of language models (LMs), albeit with small performance drops in benchmark performance. However, general-purpose LM compression methods can negatively affect performance in specialized domains (e.g. biomedical or legal). Recent work has sought to address this, yet requires computationally expensive full-parameter fine-tuning. To this end, we propose cross-calibration, a novel training-free approach for improving the domain performance of compressed LMs. Our approach effectively leverages Hessian-based sensitivity to identify weights that are influential for both in-domain and general performance. Through extensive experimentation, we demonstrate that cross-calibration substantially outperforms existing approaches on domain-specific tasks, without compromising general performance. Notably, these gains come without additional computational overhead, displaying remarkable potential towards extracting domain-specialized compressed models from general-purpose LMs.

arxiv情報

著者 Miles Williams,George Chrysostomou,Vitor Jeronymo,Nikolaos Aletras
発行日 2025-02-25 18:20:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Compressing Language Models for Specialized Domains はコメントを受け付けていません