Scaling Multi-Document Event Summarization: Evaluating Compression vs. Full-Text Approaches

要約

大規模なテキストコレクションを自動的に要約することは、ジャーナリズム、学術研究、法的作業、その他多くの分野のアプリケーションを備えたドキュメント研究にとって貴重なツールです。
この作業では、大規模なマルチドキュメント要約(MDS)の2つのクラスのシステムを比較します:圧縮とフルテキスト。
圧縮ベースの方法は、マルチステージパイプラインを使用し、多くの場合、概要を失うことになります。
フルテキストメソッドは、長いコンテキスト推論の最近の進歩に依存することにより、ロスレスの要約を約束します。
大規模なMDでそれらのユーティリティを理解するために、それぞれが要約ごとに約100のドキュメントを含む3つのデータセットでそれらを評価しました。
私たちの実験は、多様な長いコンテキスト変圧器(LLAMA-3.1、Command-R、Jamba-1.5-mini)および圧縮方法(検索、階層的、増分)の多様なセットをカバーしています。
全体として、フルテキストと検索方法は、ほとんどの設定で最高の機能を果たすことがわかります。
顕著な情報保持パターンをさらに分析することで、圧縮ベースの方法が中間段階で強い約束を示すことを示し、さらには完全なコンテキストを上回ることを示します。
ただし、マルチステージパイプラインとグローバルコンテキストの欠如により、情報の損失を被ります。
私たちの結果は、大規模なマルチドキュメントの要約で最適なパフォーマンスを得るために、圧縮とフルテキストアプローチを組み合わせたハイブリッドアプローチを開発する必要性を強調しています。

要約(オリジナル)

Automatically summarizing large text collections is a valuable tool for document research, with applications in journalism, academic research, legal work, and many other fields. In this work, we contrast two classes of systems for large-scale multi-document summarization (MDS): compression and full-text. Compression-based methods use a multi-stage pipeline and often lead to lossy summaries. Full-text methods promise a lossless summary by relying on recent advances in long-context reasoning. To understand their utility on large-scale MDS, we evaluated them on three datasets, each containing approximately one hundred documents per summary. Our experiments cover a diverse set of long-context transformers (Llama-3.1, Command-R, Jamba-1.5-Mini) and compression methods (retrieval-augmented, hierarchical, incremental). Overall, we find that full-text and retrieval methods perform the best in most settings. With further analysis into the salient information retention patterns, we show that compression-based methods show strong promise at intermediate stages, even outperforming full-context. However, they suffer information loss due to their multi-stage pipeline and lack of global context. Our results highlight the need to develop hybrid approaches that combine compression and full-text approaches for optimal performance on large-scale multi-document summarization.

arxiv情報

著者 Adithya Pratapa,Teruko Mitamura
発行日 2025-02-10 16:15:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Scaling Multi-Document Event Summarization: Evaluating Compression vs. Full-Text Approaches はコメントを受け付けていません

LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds

要約

従来の脱獄は、主に個別の組み合わせの最適化に依存して、LLMSの脆弱性を首尾よく暴露しましたが、最近の方法はLLMSのトレーニングに焦点を合わせて敵対的なプロンプトを生成することに焦点を当てています。
ただし、両方のアプローチは計算上高価で遅いため、多くの場合、単一の成功した攻撃を生成するために重要なリソースが必要です。
これらの方法の非効率性は、脱獄問題自体の不十分な特性評価から生じると仮定します。
このギャップに対処するために、私たちは脱獄問題にアラインメントの問題としてアプローチし、嘘つき攻撃に合わせた迅速かつ効率的なベストNアプローチである嘘つき(脱獄への推論時間の整合を活用する)を提案するように導きます。
Liarはいくつかの重要な利点を提供します。追加のトレーニングの必要性を排除し、完全にブラックボックス設定で動作し、計算オーバーヘッドを大幅に削減し、競争力のある攻撃の成功率を維持しながら、より人間が読みやすい敵対的プロンプトを生成します。
我々の結果は、ベスト-Nアプローチは、整列したLLMの堅牢性を評価するためのシンプルでありながら非常に効果的な戦略であり、攻撃成功率(ASR)を達成し、最先端の方法に匹敵しながら、困惑の10倍の改善を提供することを示しています。
そして、攻撃までの時間を大幅に高速化し、実行時間を数十時間から秒まで短縮します。
さらに、提案された嘘つきにサブオプティマリティ保証も提供します。
私たちの研究は、AIの安全対策を評価およびストレステストするための効率的でアラインメントベースの脱獄戦略の可能性を強調しています。

要約(オリジナル)

Traditional jailbreaks have successfully exposed vulnerabilities in LLMs, primarily relying on discrete combinatorial optimization, while more recent methods focus on training LLMs to generate adversarial prompts. However, both approaches are computationally expensive and slow, often requiring significant resources to generate a single successful attack. We hypothesize that the inefficiency of these methods arises from an inadequate characterization of the jailbreak problem itself. To address this gap, we approach the jailbreak problem as an alignment problem, leading us to propose LIAR (Leveraging Inference time Alignment to jailbReak), a fast and efficient best-of-N approach tailored for jailbreak attacks. LIAR offers several key advantages: it eliminates the need for additional training, operates in a fully black-box setting, significantly reduces computational overhead, and produces more human-readable adversarial prompts while maintaining competitive attack success rates. Our results demonstrate that a best-of-N approach is a simple yet highly effective strategy for evaluating the robustness of aligned LLMs, achieving attack success rates (ASR) comparable to state-of-the-art methods while offering a 10x improvement in perplexity and a significant speedup in Time-to-Attack, reducing execution time from tens of hours to seconds. Additionally, We also provide sub-optimality guarantees for the proposed LIAR. Our work highlights the potential of efficient, alignment-based jailbreak strategies for assessing and stress-testing AI safety measures.

arxiv情報

著者 James Beetham,Souradip Chakraborty,Mengdi Wang,Furong Huang,Amrit Singh Bedi,Mubarak Shah
発行日 2025-02-10 16:22:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds はコメントを受け付けていません

Beyond Prompt Content: Enhancing LLM Performance via Content-Format Integrated Prompt Optimization

要約

大規模な言語モデル(LLM)は、さまざまなタスクにわたって重要な機能を示しており、実際の効果は迅速な設計によって駆動されることがよくあります。
最近の研究では、迅速なコンテンツの最適化に焦点を当てていますが、重要であるが見過ごされがちな次元である迅速なフォーマットの役割は、限られた体系的な調査を受けています。
このホワイトペーパーでは、コンテンツフォーマット統合プロンプト最適化(CFPO)を紹介します。これは、反復改良プロセスを通じて、プロンプトコンテンツとフォーマットの両方を共同で最適化する革新的な方法論です。
CFPOは、自然言語の変異を活用してコンテンツの変動を調査し、多様な形式オプションを体系的に評価する動的な形式の探索戦略を採用しています。
複数のタスクとオープンソースLLMにわたる広範な評価は、CFPOがコンテンツのみの最適化方法と比較して測定可能なパフォーマンスの改善を実証することを示しています。
これは、統合されたコンテンツフォーマットの最適化の重要性を強調し、LLMパフォーマンスを向上させるための実用的でモデルに依存しないアプローチを提供します。
コードはhttps://github.com/henrylau7/cfpoで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have shown significant capability across various tasks, with their real-world effectiveness often driven by prompt design. While recent research has focused on optimizing prompt content, the role of prompt formatting, a critical but often overlooked dimension, has received limited systematic investigation. In this paper, we introduce Content-Format Integrated Prompt Optimization (CFPO), an innovative methodology that jointly optimizes both prompt content and formatting through an iterative refinement process. CFPO leverages natural language mutations to explore content variations and employs a dynamic format exploration strategy that systematically evaluates diverse format options. Our extensive evaluations across multiple tasks and open-source LLMs demonstrate that CFPO demonstrates measurable performance improvements compared to content-only optimization methods. This highlights the importance of integrated content-format optimization and offers a practical, model-agnostic approach to enhancing LLM performance. Code is available at https://github.com/HenryLau7/CFPO.

arxiv情報

著者 Yuanye Liu,Jiahang Xu,Li Lyna Zhang,Qi Chen,Xuan Feng,Yang Chen,Zhongxin Guo,Yuqing Yang,Peng Cheng
発行日 2025-02-10 16:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Prompt Content: Enhancing LLM Performance via Content-Format Integrated Prompt Optimization はコメントを受け付けていません

Transparent NLP: Using RAG and LLM Alignment for Privacy Q&A

要約

一般的なデータ保護規則(GDPR)の透明性の原則には、データ処理情報が明確で正確で、アクセス可能であることが必要です。
言語モデルはこの文脈で有望を示していますが、彼らの確率的性質は真実性と包括性を複雑にします。
このペーパーでは、GDPRの義務を果たすためにアラインメント技術で強化された最先端の検索拡張生成(RAG)システムを調べます。
プライバシーQ&Aデータセットを使用して、巻き戻す自動回帰推論(Rain)や提案された多次元拡張、マルチレインなどのアライメントモジュールを組み込んだRAGシステムを評価します。
応答は、正確さと包括性のために最適化されており、決定論的および大規模な言語モデルベースの評価を含む21のメトリックを通じて評価されます。
私たちの結果は、アラインメントモジュールを備えたRAGシステムがほとんどのメトリックでベースラインRAGシステムを上回ることを示していますが、人間の答えに完全に一致するものはありません。
結果の主成分分析により、メトリック間の複雑な相互作用が明らかになり、メトリックを改良する必要性が強調されています。
この研究は、高度な自然言語処理システムを法的コンプライアンスフレームワークに統合するための基盤を提供します。

要約(オリジナル)

The transparency principle of the General Data Protection Regulation (GDPR) requires data processing information to be clear, precise, and accessible. While language models show promise in this context, their probabilistic nature complicates truthfulness and comprehensibility. This paper examines state-of-the-art Retrieval Augmented Generation (RAG) systems enhanced with alignment techniques to fulfill GDPR obligations. We evaluate RAG systems incorporating an alignment module like Rewindable Auto-regressive Inference (RAIN) and our proposed multidimensional extension, MultiRAIN, using a Privacy Q&A dataset. Responses are optimized for preciseness and comprehensibility and are assessed through 21 metrics, including deterministic and large language model-based evaluations. Our results show that RAG systems with an alignment module outperform baseline RAG systems on most metrics, though none fully match human answers. Principal component analysis of the results reveals complex interactions between metrics, highlighting the need to refine metrics. This study provides a foundation for integrating advanced natural language processing systems into legal compliance frameworks.

arxiv情報

著者 Anna Leschanowsky,Zahra Kolagar,Erion Çano,Ivan Habernal,Dara Hallinan,Emanuël A. P. Habets,Birgit Popp
発行日 2025-02-10 16:42:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Transparent NLP: Using RAG and LLM Alignment for Privacy Q&A はコメントを受け付けていません

DiaSynth: Synthetic Dialogue Generation Framework for Low Resource Dialogue Applications

要約

ドメイン固有のダイアログデータセットの希少性により、アプリケーション全体のダイアログシステムの開発が制限されます。
既存の研究は、対話システムのトレーニングに十分な規模を欠いている一般的またはニッチデータセットによって制約されています。
このギャップに対処するために、DiaSynthを紹介します。これは、幅広いドメインで高品質で文脈的に豊富な対話を生成できる合成対話生成フレームワークです。
既存のフレームワークとは異なり、DiaSynthは大規模な言語モデル(LLMS)とChainの思考(COT)の推論を使用して、シミュレートされたペルソナと多様な会話機能を備えた動的なドメイン固有の対話を生成します。
DialogsumとSamsumのさまざまなLLMと少数のショットの例を使用して合成データを生成することにより、実験を実行します。
合成データで微調整された前提条件の言語モデルは、対話の要約でベースモデルを16.47%上回っていますが、ドメイン内データと合成データで微調整されたモデルの比較は、合成データが90.48%の90.48%をキャプチャできることを示しています。
ダイアログの要約に関するドメイン内データのパフォーマンス分布。
生成されたデータの品質は、LLMのサイズが3Bから8Bに増加するにつれて増加します。
これらの結果は、従来のデータ収集方法の堅牢な代替手段として、Diasynthの可能性を検証します。
将来の研究のために生成されたコードとデータをオープンします。

要約(オリジナル)

The scarcity of domain-specific dialogue datasets limits the development of dialogue systems across applications. Existing research is constrained by general or niche datasets that lack sufficient scale for training dialogue systems. To address this gap, we introduce DiaSynth – a synthetic dialogue generation framework capable of generating high-quality, contextually rich dialogues across a wide range of domains. Unlike existing frameworks, DiaSynth uses Large Language Models (LLMs) and Chain of Thought (CoT) reasoning to generate dynamic, domain-specific dialogues with simulated personas and diverse conversational features. We perform our experiments by generating synthetic data using different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained language models fine-tuned on the synthetic data outperform the base models by 16.47% on dialogue summarization, while the comparison between models fine-tuned on in-domain data and synthetic data shows that the synthetic data is able to capture 90.48% of the performance distribution of the in-domain data on dialogue summarization. The quality of the data generated also increases as we increase the size of LLM from 3B to 8B. These results validate DiaSynth’s potential as a robust alternative to traditional data collection methods. We open source the code and data generated for future research.

arxiv情報

著者 Sathya Krishnan Suresh,Wu Mengjun,Tushar Pranav,Eng Siong Chng
発行日 2025-02-10 16:42:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DiaSynth: Synthetic Dialogue Generation Framework for Low Resource Dialogue Applications はコメントを受け付けていません

In-Context Learning (and Unlearning) of Length Biases

要約

大規模な言語モデルは、模範的な入出力のペアリングがデモンストレーションのプロンプトに追加されるコンテキスト内で学習する強力な能力を実証しています。
ただし、既存の作業により、モデルが語彙的バイアスを学習し、コンテキストでラベルを付ける能力が実証されており、モデルのパフォーマンスと堅牢性の両方に悪影響を及ぼします。
他の統計データバイアスの影響は未調査のままであり、この作業は対処することを目的としています。
コンテキスト内学習に対する長さのバイアスの影響を具体的に調査します。
モデルは、コンテキストウィンドウで予測の長さのバイアスを学習し、モデルによって示されるバイアスのレベルを調節する要因をさらに経験的に分析することを実証します。
さらに、コンテキスト内の学習長さ情報を使用して、モデルでエンコードされた長さのバイアスに対抗できることを示しています(たとえば、微調整を介して)。
これにより、コストのかかるパラメーターの更新を必要とせずに、モデルの予測行動の削除におけるコンテキスト内学習の力が明らかになります。

要約(オリジナル)

Large language models have demonstrated strong capabilities to learn in-context, where exemplar input-output pairings are appended to the prompt for demonstration. However, existing work has demonstrated the ability of models to learn lexical and label biases in-context, which negatively impacts both performance and robustness of models. The impact of other statistical data biases remains under-explored, which this work aims to address. We specifically investigate the impact of length biases on in-context learning. We demonstrate that models do learn length biases in the context window for their predictions, and further empirically analyze the factors that modulate the level of bias exhibited by the model. In addition, we show that learning length information in-context can be used to counter the length bias that has been encoded in models (e.g., via fine-tuning). This reveals the power of in-context learning in debiasing model prediction behaviors without the need for costly parameter updates.

arxiv情報

著者 Stephanie Schoch,Yangfeng Ji
発行日 2025-02-10 16:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | In-Context Learning (and Unlearning) of Length Biases はコメントを受け付けていません

Who Taught You That? Tracing Teachers in Model Distillation

要約

モデルの蒸留 – 大規模な教師モデルからの出力を使用して小さな学生モデルを教える – は、特定のタスクの効率的なモデルを作成する実用的な手段です。
私たちは尋ねます:生徒の出力に基づいて生徒の教師を特定できますか?
このような「フットプリント」は、教師LLMSによって残されたものです。
これを超えて、信頼できる教師の推論は、俳優が大規模な独自のLLMの特定の能力を展開して展開されたより小さなLMSに蒸留し、潜在的に条件に違反するため、実際的な意味を持つ可能性があります。
要約、質問への回答、指導のフォローを含む実用的なタスク蒸留目標を検討します。
ブラックボックスとして扱う候補者モデルの有限セットを想定しています。
語彙的特徴を操作する識別モデルを設計します。
$ n $ -GRAMの類似性だけでは、教師を識別するために信頼できないが、学生モデルが教師のモデルを模倣するもので好まれる一部のスピーチ(POS)テンプレート。

要約(オリジナル)

Model distillation — using outputs from a large teacher model to teach a small student model — is a practical means of creating efficient models for a particular task. We ask: Can we identify a students’ teacher based on its outputs? Such ‘footprints’ left by teacher LLMs would be interesting artifacts. Beyond this, reliable teacher inference may have practical implications as actors seek to distill specific capabilities of massive proprietary LLMs into deployed smaller LMs, potentially violating terms of service. We consider practical task distillation targets including summarization, question answering, and instruction-following. We assume a finite set of candidate teacher models, which we treat as blackboxes. We design discriminative models that operate over lexical features. We find that $n$-gram similarity alone is unreliable for identifying teachers, but part-of-speech (PoS) templates preferred by student models mimic those of their teachers.

arxiv情報

著者 Somin Wadhwa,Chantal Shaib,Silvio Amir,Byron C. Wallace
発行日 2025-02-10 16:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Who Taught You That? Tracing Teachers in Model Distillation はコメントを受け付けていません

Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models

要約

システムドメインに特化した効率的な大規模な言語モデルであるSigmaを紹介し、DifFQKVの注意を含む新しいアーキテクチャに力を与え、細心の注意を払って収集されたシステムドメインデータで事前に訓練されています。
DIFFQKVの注意は、モデルのパフォーマンスと効率指標に対するさまざまな影響に基づいて、注意メカニズムのクエリ(Q)、キー(k)、および値(v)コンポーネントを最適化することにより、Sigmaの推論効率を大幅に向上させます。
具体的には、我々は(1)KおよびV成分の圧縮に対するモデルのさまざまな感度を示す広範な実験を実施し、差次的に圧縮されたKVの発生につながり、(2)Qヘッド寸法を拡大するために拡張Qを提案し、これにより強化するQヘッド寸法を拡大することを提案します。
推論速度への影響を最小限に抑えたモデルの表現容量。
厳密な理論的および経験的分析により、DiffQKVの注意が効率を大幅に向上させ、長期コンテキストシナリオで従来のグループ化されたクエリ注意(GQA)よりも最大33.36%の推論速度を達成することが明らかになりました。
さまざまなソースからの6Tトークンでシグマを事前に訓練します。これには、慎重に収集した19.5Bシステムドメインデータや、合成および書き換えデータの1Tトークンを含みます。
一般的なドメインでは、Sigmaは他の最先端のモデルに匹敵するパフォーマンスを達成します。
システムドメインでは、最初の包括的なベンチマークAimiciusを導入します。ここでは、Sigmaはすべてのタスクで顕著なパフォーマンスを示し、GPT-4を大幅に上回り、最大52.5%の絶対改善を行います。

要約(オリジナル)

We introduce Sigma, an efficient large language model specialized for the system domain, empowered by a novel architecture including DiffQKV attention, and pre-trained on our meticulously collected system domain data. DiffQKV attention significantly enhances the inference efficiency of Sigma by optimizing the Query (Q), Key (K), and Value (V) components in the attention mechanism differentially, based on their varying impacts on the model performance and efficiency indicators. Specifically, we (1) conduct extensive experiments that demonstrate the model’s varying sensitivity to the compression of K and V components, leading to the development of differentially compressed KV, and (2) propose augmented Q to expand the Q head dimension, which enhances the model’s representation capacity with minimal impacts on the inference speed. Rigorous theoretical and empirical analyses reveal that DiffQKV attention significantly enhances efficiency, achieving up to a 33.36% improvement in inference speed over the conventional grouped-query attention (GQA) in long-context scenarios. We pre-train Sigma on 6T tokens from various sources, including 19.5B system domain data that we carefully collect and 1T tokens of synthesized and rewritten data. In general domains, Sigma achieves comparable performance to other state-of-arts models. In the system domain, we introduce the first comprehensive benchmark AIMicius, where Sigma demonstrates remarkable performance across all tasks, significantly outperforming GPT-4 with an absolute improvement up to 52.5%.

arxiv情報

著者 Zhenghao Lin,Zihao Tang,Xiao Liu,Yeyun Gong,Yi Cheng,Qi Chen,Hang Li,Ying Xin,Ziyue Yang,Kailai Yang,Yu Yan,Xiao Liang,Shuai Lu,Yiming Huang,Zheheng Luo,Lei Qu,Xuan Feng,Yaoxiang Wang,Yuqing Xia,Feiyang Chen,Yuting Jiang,Yasen Hu,Hao Ni,Binyang Li,Guoshuai Zhao,Jui-Hao Chiang,Zhongxin Guo,Chen Lin,Kun Kuang,Wenjie Li,Yelong Shen,Jian Jiao,Peng Cheng,Mao Yang
発行日 2025-02-10 17:19:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models はコメントを受け付けていません

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

要約

テスト時間スケーリング(TTS)は、推論フェーズ中に追加の計算を使用することにより、大規模な言語モデル(LLMS)のパフォーマンスを改善するための重要な方法です。
ただし、現在の研究では、ポリシーモデル、プロセス報酬モデル(PRM)、および問題の難易度がTTSにどのように影響するかを体系的に分析していません。
この分析の欠如は、TTSメソッドの理解と実際の使用を制限します。
このホワイトペーパーでは、2つのコア質問に焦点を当てています。(1)さまざまなポリシーモデル、PRM、および問題の難易度にわたるテスト時間計算をスケールする最適なアプローチは何ですか?
(2)拡張計算は、複雑なタスクでのLLMSのパフォーマンスをどの程度改善でき、このアプローチを通じてより小さな言語モデルはより大きなものを上回ることができますか?
Math-500と挑戦的なAIME24タスクに関する包括的な実験を通じて、次の観察結果があります。(1)計算最適なTTS戦略は、ポリシーモデル、PRM、および問題の難易度の選択に大きく依存しています。
(2)コンピューティングオプティマルTTS戦略により、非常に小さなポリシーモデルがより大きなモデルを上回る可能性があります。
たとえば、1B LLMはMath-500で405B LLMを超えることがあります。
さらに、MATH-500とAIME24の両方で、0.5B LLMがGPT-4Oを上回り、3B LLMは405B LLMを上回り、7B LLMはO1とDeepSeek-R1を叩き、推論効率が高くなります。
これらの調査結果は、各タスクとモデルの特定の特性にTTS戦略を適応させることの重要性を示しており、TTSがLLMSの推論能力を高めるための有望なアプローチであることを示しています。

要約(オリジナル)

Test-Time Scaling (TTS) is an important method for improving the performance of Large Language Models (LLMs) by using additional computation during the inference phase. However, current studies do not systematically analyze how policy models, Process Reward Models (PRMs), and problem difficulty influence TTS. This lack of analysis limits the understanding and practical use of TTS methods. In this paper, we focus on two core questions: (1) What is the optimal approach to scale test-time computation across different policy models, PRMs, and problem difficulty levels? (2) To what extent can extended computation improve the performance of LLMs on complex tasks, and can smaller language models outperform larger ones through this approach? Through comprehensive experiments on MATH-500 and challenging AIME24 tasks, we have the following observations: (1) The compute-optimal TTS strategy is highly dependent on the choice of policy model, PRM, and problem difficulty. (2) With our compute-optimal TTS strategy, extremely small policy models can outperform larger models. For example, a 1B LLM can exceed a 405B LLM on MATH-500. Moreover, on both MATH-500 and AIME24, a 0.5B LLM outperforms GPT-4o, a 3B LLM surpasses a 405B LLM, and a 7B LLM beats o1 and DeepSeek-R1, while with higher inference efficiency. These findings show the significance of adapting TTS strategies to the specific characteristics of each task and model and indicate that TTS is a promising approach for enhancing the reasoning abilities of LLMs.

arxiv情報

著者 Runze Liu,Junqi Gao,Jian Zhao,Kaiyan Zhang,Xiu Li,Biqing Qi,Wanli Ouyang,Bowen Zhou
発行日 2025-02-10 17:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling はコメントを受け付けていません

Diverse Preference Optimization

要約

補強学習、好みの最適化、または監視された微調整のいずれかを通じて、言語モデルの訓練後のトレーニングは、出力確率分布を研ぎ澄まし、生成された応答の多様性を減らす傾向があります。
これは、さまざまな応答が望まれる創造的な生成タスクにとって特に問題です。
この作業では、世代の品質を維持しながら、標準のパイプラインよりもはるかに多様な応答を生成することを学習する最適化方法である多様な優先最適化(DIVPO)を紹介します。
DivPoでは、最初に応答のプールとそれらの多様性の尺度を考慮し、選択した例をよりまれであるが高品質であると選択することにより、優先ペアが選択されますが、拒否された例はより一般的ですが、低品質です。
Divpoは、45.6%の多様なペルソナ属性を生成し、ストーリーの多様性が74.6%増加し、標準的なベースラインと同様の勝利を維持します。

要約(オリジナル)

Post-training of language models, either through reinforcement learning, preference optimization or supervised finetuning, tends to sharpen the output probability distribution and reduce the diversity of generated responses. This is particularly a problem for creative generative tasks where varied responses are desired. In this work we introduce Diverse Preference Optimization (DivPO), an optimization method which learns to generate much more diverse responses than standard pipelines, while maintaining the quality of the generations. In DivPO, preference pairs are selected by first considering a pool of responses, and a measure of diversity among them, and selecting chosen examples as being more rare but high quality, while rejected examples are more common, but low quality. DivPO results in generating 45.6% more diverse persona attributes, and an 74.6% increase in story diversity, while maintaining similar win rates as standard baselines.

arxiv情報

著者 Jack Lanchantin,Angelica Chen,Shehzaad Dhuliawala,Ping Yu,Jason Weston,Sainbayar Sukhbaatar,Ilia Kulikov
発行日 2025-02-10 18:22:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Diverse Preference Optimization はコメントを受け付けていません