Incentivizing Reasoning from Weak Supervision

要約

大規模な言語モデル(LLMS)は、推論集約型タスクの印象的なパフォーマンスを実証していますが、推論能力の向上は、通常、検証可能な信号を備えた補強学習(RL)または高品質の長い概要(COT)デモンストレーションを備えた監視付き微調整(SFT)のいずれかに依存しています。
この論文では、高価な高品質のデモンストレーションと強化学習なしでLLMの推論能力を奨励するという新しい問題を研究します。
LLMの推論能力が、大幅に弱いモデルからの監督を介して効果的にインセンティブ化できるかどうかを調査します。
さらに、このような弱い監督が、より強力なモデルで推論能力を引き出すことに成功する時期と理由を分析します。
私たちの調査結果は、大幅に弱い推論者からの監督が学生の推論パフォーマンスを大幅に改善し、数分の1のコストで高価なRLの利益の94%近くを回復できることを示しています。
多様なベンチマークとモデルアーキテクチャの実験は、弱い推論者がより強力な学生モデルの推論を効果的に奨励し、幅広い推論タスクのパフォーマンスを一貫して改善できることを示しています。
私たちの結果は、この単純な弱いパラダイムが、LLMSの推論時に強い推論能力を奨励するための費用のかかる方法の有望で一般化可能な代替手段であることを示唆しています。
このコードは、https://github.com/yuanyige/w2srで公開されています。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive performance on reasoning-intensive tasks, but enhancing their reasoning abilities typically relies on either reinforcement learning (RL) with verifiable signals or supervised fine-tuning (SFT) with high-quality long chain-of-thought (CoT) demonstrations, both of which are expensive. In this paper, we study a novel problem of incentivizing the reasoning capacity of LLMs without expensive high-quality demonstrations and reinforcement learning. We investigate whether the reasoning capabilities of LLMs can be effectively incentivized via supervision from significantly weaker models. We further analyze when and why such weak supervision succeeds in eliciting reasoning abilities in stronger models. Our findings show that supervision from significantly weaker reasoners can substantially improve student reasoning performance, recovering close to 94% of the gains of expensive RL at a fraction of the cost. Experiments across diverse benchmarks and model architectures demonstrate that weak reasoners can effectively incentivize reasoning in stronger student models, consistently improving performance across a wide range of reasoning tasks. Our results suggest that this simple weak-to-strong paradigm is a promising and generalizable alternative to costly methods for incentivizing strong reasoning capabilities at inference-time in LLMs. The code is publicly available at https://github.com/yuanyige/W2SR.

arxiv情報

著者 Yige Yuan,Teng Xiao,Shuchang Tao,Xue Wang,Jinyang Gao,Bolin Ding,Bingbing Xu
発行日 2025-05-26 14:51:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Incentivizing Reasoning from Weak Supervision はコメントを受け付けていません

Inference-time Alignment in Continuous Space

要約

推論時間に人間のフィードバックで大規模な言語モデルを調整することで、柔軟性により注目が高まります。
既存の方法は、報酬モデルを使用して検索のために基本ポリシーから複数の応答を生成することに依存しています。これは、個別の応答スペースで検索すると見なすことができます。
ただし、これらの方法は、基本ポリシーが弱い場合、または候補者セットが小さく、有効性が限られている場合に有益な候補者を探索するのに苦労しています。
このホワイトペーパーでは、この問題に対処するために、推論時間アライメントのためのシンプルで効果的なアルゴリズムである単純なエネルギー適応($ \ textbf {sea} $)を提案します。
個別のスペースを介した高価な検索とは対照的に、Seaは、連続潜在空間での勾配ベースのサンプリングを介して、基本ポリシーから最適なポリシーに直接元の応答を適合させます。
具体的には、SEAは、最適なポリシーによって定義された連続空間でのアクション上のエネルギー関数の反復最適化手順として推論を定式化し、シンプルで効果的なアライメントを可能にします。
たとえば、シンプルさにもかかわらず、Seaは、Advbenchで最大$ \ TextBF {77.51%} $と$ \ TextBF {16.36%} $の相対的な改善により、2番目に良いベースラインよりも優れています。
私たちのコードは、https://github.com/yuanyige/seaで公開されています

要約(オリジナル)

Aligning large language models with human feedback at inference time has received increasing attention due to its flexibility. Existing methods rely on generating multiple responses from the base policy for search using a reward model, which can be considered as searching in a discrete response space. However, these methods struggle to explore informative candidates when the base policy is weak or the candidate set is small, resulting in limited effectiveness. In this paper, to address this problem, we propose Simple Energy Adaptation ($\textbf{SEA}$), a simple yet effective algorithm for inference-time alignment. In contrast to expensive search over the discrete space, SEA directly adapts original responses from the base policy toward the optimal one via gradient-based sampling in continuous latent space. Specifically, SEA formulates inference as an iterative optimization procedure on an energy function over actions in the continuous space defined by the optimal policy, enabling simple and effective alignment. For instance, despite its simplicity, SEA outperforms the second-best baseline with a relative improvement of up to $ \textbf{77.51%}$ on AdvBench and $\textbf{16.36%}$ on MATH. Our code is publicly available at https://github.com/yuanyige/SEA

arxiv情報

著者 Yige Yuan,Teng Xiao,Li Yunfan,Bingbing Xu,Shuchang Tao,Yunqi Qiu,Huawei Shen,Xueqi Cheng
発行日 2025-05-26 14:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Inference-time Alignment in Continuous Space はコメントを受け付けていません

Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models

要約

大規模な言語モデル(LLM)は、人工的な一般情報の基礎的な調査ですが、指導の調整と好みの学習による人間の価値との整合性は、表面的なコンプライアンスのみを達成します。
ここでは、事前に埋め込まれた有害な知識がLLMSのパラメトリックメモリでは消えない「暗いパターン」として持続し、アライメントセーフガードを回避し、分布シフトでの敵対的誘導の下で再浮上することを示します。
この研究では、現在のアライメント方法が知識マニホールドにローカルな「安全領域」のみを生成することを証明することにより、まず、整合したLLMの本質的な倫理的脆弱性を理論的に分析します。
対照的に、事前に守られた知識は、高値の敵対的軌跡を介して有害な概念に世界的に関連したままです。
この理論的洞察に基づいて、分布シフトの下でセマンティックコヒーレンス誘導を採用することにより、調査結果を経験的に検証します。これは、最適化された敵対的プロンプトを介して整列制約を体系的にバイパスする方法です。
この理論的および経験的アプローチは、Deepseek-R1やLlama-3を含む23の最先端のAligned LLMのうち19で100%の攻撃成功率を達成し、普遍的な脆弱性を明らかにします。

要約(オリジナル)

Large language models (LLMs) are foundational explorations to artificial general intelligence, yet their alignment with human values via instruction tuning and preference learning achieves only superficial compliance. Here, we demonstrate that harmful knowledge embedded during pretraining persists as indelible ‘dark patterns’ in LLMs’ parametric memory, evading alignment safeguards and resurfacing under adversarial inducement at distributional shifts. In this study, we first theoretically analyze the intrinsic ethical vulnerability of aligned LLMs by proving that current alignment methods yield only local ‘safety regions’ in the knowledge manifold. In contrast, pretrained knowledge remains globally connected to harmful concepts via high-likelihood adversarial trajectories. Building on this theoretical insight, we empirically validate our findings by employing semantic coherence inducement under distributional shifts–a method that systematically bypasses alignment constraints through optimized adversarial prompts. This combined theoretical and empirical approach achieves a 100% attack success rate across 19 out of 23 state-of-the-art aligned LLMs, including DeepSeek-R1 and LLaMA-3, revealing their universal vulnerabilities.

arxiv情報

著者 Jiawei Lian,Jianhong Pan,Lefan Wang,Yi Wang,Shaohui Mei,Lap-Pui Chau
発行日 2025-05-26 14:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models はコメントを受け付けていません

Multi-Domain Explainability of Preferences

要約

人間の好み、LLM-as-a-a-judge(laaj)、報酬モデルなどの選好メカニズムは、大規模な言語モデル(LLM)を調整および評価するための中心です。
しかし、これらの好みを促進する根本的な概念は、よく理解されていません。
この作業では、複数のドメインにわたって好みのローカルおよびグローバルな概念ベースの説明を生成するための完全に自動化されたエンドツーエンド方法を提案します。
私たちの方法では、LLMを使用して、選択された応答と拒否された応答を区別し、概念ベースのベクトルで表現する概念を発見します。
概念と好みの関係をモデル化するために、ドメイン総長とドメイン固有の効果の両方をキャプチャするホワイトボックスの階層マルチドメイン回帰モデルを提案します。
私たちの方法を評価するために、8つの挑戦的で多様なドメインにまたがるデータセットをキュレートし、12のメカニズムを説明します。
私たちの方法は、強い優先予測のパフォーマンスを実現し、ベースラインを上回りながら説明可能です。
さらに、2つの新しいアプリケーション駆動型設定で説明を評価します。
第一に、LAAJの説明からの概念を使用してLLM出力をガイドすることは、それらの裁判官が一貫して好む応答をもたらします。
第二に、人間を説明する概念でラージを促すことで、好みの予測が向上します。
一緒に、私たちの作品は、LLMSの時代における説明可能性のための新しいパラダイムを提供します。

要約(オリジナル)

Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and reward models, are central to aligning and evaluating large language models (LLMs). Yet, the underlying concepts that drive these preferences remain poorly understood. In this work, we propose a fully automated end-to-end method for generating local and global concept-based explanations of preferences across multiple domains. Our method employs an LLM to discover concepts that differentiate between chosen and rejected responses and represent them with concept-based vectors. To model the relationships between concepts and preferences, we propose a white-box Hierarchical Multi-Domain Regression model that captures both domain-general and domain-specific effects. To evaluate our method, we curate a dataset spanning eight challenging and diverse domains and explain twelve mechanisms. Our method achieves strong preference prediction performance, outperforming baselines while also being explainable. Additionally, we assess explanations in two novel application-driven settings. First, guiding LLM outputs with concepts from LaaJ explanations yields responses that those judges consistently prefer. Second, prompting LaaJs with concepts explaining humans improves their preference predictions. Together, our work provides a new paradigm for explainability in the era of LLMs.

arxiv情報

著者 Nitay Calderon,Liat Ein-Dor,Roi Reichart
発行日 2025-05-26 15:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multi-Domain Explainability of Preferences はコメントを受け付けていません

S2LPP: Small-to-Large Prompt Prediction across LLMs

要約

事前に訓練された大型言語モデル(LLMS)のパフォーマンスは、多くの場合、プロンプトテンプレートのニュアンスに敏感であり、慎重な迅速なエンジニアリングを必要とし、コンピューティングと人間の努力の観点からコストを追加します。
この研究では、さまざまなプロンプトでの好みを調べることを目的としたさまざまなサイズの複数のLLMSバリアントを含む実験を紹介します。
質問回答に関する実験を通じて、さまざまなサイズのLLM全体で迅速な優先順位の一貫性を示します。
また、この一貫性は、自然言語の推論などの他のタスクにまで及ぶことも示しています。
この一貫性を利用して、より小さなモデルを使用して、より大きなモデルに効果的なプロンプトテンプレートを選択する方法を提案します。
私たちの方法は、迅速なエンジニアリングのコストを大幅に削減しながら、パフォーマンスを候補者間の最適なプロンプトと一貫して一致させることを示しています。
さらに重要なことに、私たちの実験は、14のLLMSにわたる戦略の有効性と、幅広いNLPタスクへの適用性を示しており、その堅牢性を強調しています。

要約(オリジナル)

The performance of pre-trained Large Language Models (LLMs) is often sensitive to nuances in prompt templates, requiring careful prompt engineering, adding costs in terms of computing and human effort. In this study, we present experiments encompassing multiple LLMs variants of varying sizes aimed at probing their preference with different prompts. Through experiments on Question Answering, we show prompt preference consistency across LLMs of different sizes. We also show that this consistency extends to other tasks, such as Natural Language Inference. Utilizing this consistency, we propose a method to use a smaller model to select effective prompt templates for a larger model. We show that our method substantially reduces the cost of prompt engineering while consistently matching performance with optimal prompts among candidates. More importantly, our experiment shows the efficacy of our strategy across fourteen LLMs and its applicability to a broad range of NLP tasks, highlighting its robustness

arxiv情報

著者 Liang Cheng,Tianyi LI,Zhaowei Wang,Mark Steedman
発行日 2025-05-26 15:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | S2LPP: Small-to-Large Prompt Prediction across LLMs はコメントを受け付けていません

Adaptive Deep Reasoning: Triggering Deep Thinking When Needed

要約

大規模な言語モデル(LLM)は、長鎖の推論を通じて複雑なタスクを処理する上で印象的な機能を示しています。
ただし、関連する広範な推論ステップは、計算コストを大幅に増加させる可能性があり、実際の展開の課題をもたらします。
最近の取り組みは、長さを認識した迅速なエンジニアリング、さまざまな長さのCOTデータの監視された微調整、長さのペナルティを備えた補強学習など、さまざまなアプローチを通じて、考え方(COT)の推論プロセスを短縮することにより、推論効率を最適化することに焦点を当てています。
これらの方法は効果的に推論長を短縮しますが、最初の推論段階が必要です。
より最近のアプローチでは、長鎖と短鎖の推論能力を単一のモデルに統合しようとしましたが、それでも短いコットとロングコットを切り替えるために手動制御に依存しています。この作業では、問題の複雑さに基づいて短い推論と長い推論チェーンを自律的に切り替える新しいアプローチを提案します。
私たちの方法は、長鎖と短鎖の推論能力の両方を装備するために、ベースモデルの監視された微調整から始まります。
次に、強化学習を採用して、短いCOTと長いCOTの生成のバランスをさらにバランスさせながら、2つの重要な戦略を維持します。まず、強化学習を長期的な適応型グループごとの報酬戦略と統合して、迅速な複雑さを評価し、対応する報酬を提供します。
第二に、モデルの最初のトークンの選択を最適化するためにロジットベースの推論モードの切り替え損失を実装し、それによって推論タイプの選択を導く。数学データセットの評価は、モデルがパフォーマンスを大幅に犠牲にすることなく、長鎖と短鎖の推論モードを動的に切り替えることができることを示しています。
この進歩は、実際のアプリケーションの大規模な言語モデルでの推論の実用性を高めます。

要約(オリジナル)

Large language models (LLMs) have shown impressive capabilities in handling complex tasks through long-chain reasoning. However, the extensive reasoning steps involved can significantly increase computational costs, posing challenges for real-world deployment. Recent efforts have focused on optimizing reasoning efficiency by shortening the Chain-of-Thought (CoT) reasoning processes through various approaches, such as length-aware prompt engineering, supervised fine-tuning on CoT data with variable lengths, and reinforcement learning with length penalties. Although these methods effectively reduce reasoning length, they still necessitate an initial reasoning phase. More recent approaches have attempted to integrate long-chain and short-chain reasoning abilities into a single model, yet they still rely on manual control to toggle between short and long CoT.In this work, we propose a novel approach that autonomously switches between short and long reasoning chains based on problem complexity. Our method begins with supervised fine-tuning of the base model to equip both long-chain and short-chain reasoning abilities. We then employ reinforcement learning to further balance short and long CoT generation while maintaining accuracy through two key strategies: first, integrating reinforcement learning with a long-short adaptive group-wise reward strategy to assess prompt complexity and provide corresponding rewards; second, implementing a logit-based reasoning mode switching loss to optimize the model’s initial token choice, thereby guiding the selection of the reasoning type.Evaluations on mathematical datasets demonstrate that our model can dynamically switch between long-chain and short-chain reasoning modes without substantially sacrificing performance. This advancement enhances the practicality of reasoning in large language models for real-world applications.

arxiv情報

著者 Yunhao Wang,Yuhao Zhang,Tinghao Yu,Can Xu,Feng Zhang,Fengzong Lian
発行日 2025-05-26 15:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Adaptive Deep Reasoning: Triggering Deep Thinking When Needed はコメントを受け付けていません

SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment

要約

科学研究の記事では、現在の研究と以前の研究との関係を強調しているため、引用は非常に重要です。
ただし、このプロセスは、多くの場合、研究者にとって時間がかかります。
この研究では、scirgc​​フレームワークを提案します。これは、引用記事を自動的に推奨し、記事内の引用場所の引用文を生成することを目的としています。
このフレームワークは、アカデミック引用生成における2つの重要な課題に対処します。1)著者の引用の意図を正確に特定し、関連する引用論文を見つける方法、および2)人間の好みに合わせた高品質の引用文を生成する方法。
引用ネットワークとセンチメントの意図を組み込むことにより、引用記事の推奨モジュールの引用推奨の精度を高め、元の記事抽象、ローカルコンテキスト、引用意図、および推奨記事を入力として使用して、引用文の生成モジュールで推論ベースの引用文を生成します。
さらに、生成された引用文の品質を公正に評価するための新しい評価メトリックを提案します。
ベースラインモデルとアブレーション実験との比較を通じて、SCIRGCフレームワークは、引用の推奨事項の精度と関連性を向上させるだけでなく、文脈で生成された引用文の適切性を保証し、学際的な研究者に貴重なツールを提供します。

要約(オリジナル)

Citations are crucial in scientific research articles as they highlight the connection between the current study and prior work. However, this process is often time-consuming for researchers. In this study, we propose the SciRGC framework, which aims to automatically recommend citation articles and generate citation sentences for citation locations within articles. The framework addresses two key challenges in academic citation generation: 1) how to accurately identify the author’s citation intent and find relevant citation papers, and 2) how to generate high-quality citation sentences that align with human preferences. We enhance citation recommendation accuracy in the citation article recommendation module by incorporating citation networks and sentiment intent, and generate reasoning-based citation sentences in the citation sentence generation module by using the original article abstract, local context, citation intent, and recommended articles as inputs. Additionally, we propose a new evaluation metric to fairly assess the quality of generated citation sentences. Through comparisons with baseline models and ablation experiments, the SciRGC framework not only improves the accuracy and relevance of citation recommendations but also ensures the appropriateness of the generated citation sentences in context, providing a valuable tool for interdisciplinary researchers.

arxiv情報

著者 Xiangyu Li,Jingqiang Chen
発行日 2025-05-26 15:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL | SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment はコメントを受け付けていません

TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent

要約

大規模な言語モデル(LLM)がデリケートなワークフローに統合されると、懸念は機密情報を漏らす可能性に懸念が高まっています。
TrojanStegoは、敵対的なコンテキスト情報を言語のステガノグラフィを介して自然な外観の出力に埋め込むためのLLMを微調整する新しい脅威モデルであり、推論入力を明示的に制御する必要はありません。
妥協したLLMSのリスク要因を概説する分類法を導入し、それを使用して脅威のリスクプロファイルを評価します。
TrojanStegoを実装するために、微調整を介してLLMSが学習可能な語彙分割に基づいて実用的なエンコードスキームを提案します。
実験結果は、侵害されたモデルが保有プロンプトで87%の精度で32ビットの秘密を確実に送信し、3世代にわたって過半数の投票を使用して97%以上の精度に達することを示しています。
さらに、彼らは高い効用を維持し、人間の検出を回避し、一貫性を維持することができます。
これらの結果は、受動的、秘密、実用的で、危険なLLMデータの新しいクラスの排出攻撃を強調しています。

要約(オリジナル)

As large language models (LLMs) become integrated into sensitive workflows, concerns grow over their potential to leak confidential information. We propose TrojanStego, a novel threat model in which an adversary fine-tunes an LLM to embed sensitive context information into natural-looking outputs via linguistic steganography, without requiring explicit control over inference inputs. We introduce a taxonomy outlining risk factors for compromised LLMs, and use it to evaluate the risk profile of the threat. To implement TrojanStego, we propose a practical encoding scheme based on vocabulary partitioning learnable by LLMs via fine-tuning. Experimental results show that compromised models reliably transmit 32-bit secrets with 87% accuracy on held-out prompts, reaching over 97% accuracy using majority voting across three generations. Further, they maintain high utility, can evade human detection, and preserve coherence. These results highlight a new class of LLM data exfiltration attacks that are passive, covert, practical, and dangerous.

arxiv情報

著者 Dominik Meier,Jan Philip Wahle,Paul Röttger,Terry Ruas,Bela Gipp
発行日 2025-05-26 15:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent はコメントを受け付けていません

PandaGuard: Systematic Evaluation of LLM Safety against Jailbreaking Attacks

要約

大規模な言語モデル(LLMS)は顕著な能力を達成していますが、ジェイルブレイクと呼ばれる敵対的なプロンプトに対して脆弱なままであり、安全性アライメントをバイパスして有害な出力を引き出すことができます。
LLMの安全調査での努力が高まっているにもかかわらず、既存の評価はしばしば断片化され、孤立した攻撃または防衛技術に焦点を当て、体系的で再現可能な分析を欠いています。
この作業では、攻撃者、ディフェンダー、裁判官を含むマルチエージェントシステムとしてLLM脱獄安全性をモデル化する統一されたモジュール式フレームワークであるPandaguardを紹介します。
当社のフレームワークは、多様なLLMインターフェース、複数の相互作用モード、再現性と実用的な展開を強化する構成駆動型の実験をサポートする柔軟なプラグインアーキテクチャ内で、複数の判断戦略とともに、19の攻撃方法と12の防御メカニズムを実装しています。
このフレームワークに基づいて構築されたPandabenchを開発します。これは、49のLLMSとさまざまな判断アプローチにわたるこれらの攻撃/防衛方法との相互作用を評価する包括的なベンチマークであり、実行には30億以上のトークンが必要です。
当社の広範な評価により、モデルの脆弱性、防衛コストパフォーマンスのトレードオフ、裁判官の一貫性に関する重要な洞察が明らかになりました。
すべての次元にわたって最適な単一の防御はなく、裁判官の意見の不一致が安全評価に自明でない分散をもたらすことがわかります。
LLMの安全性における透明で再現可能な研究をサポートするために、コード、構成、および評価結果をリリースします。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable capabilities but remain vulnerable to adversarial prompts known as jailbreaks, which can bypass safety alignment and elicit harmful outputs. Despite growing efforts in LLM safety research, existing evaluations are often fragmented, focused on isolated attack or defense techniques, and lack systematic, reproducible analysis. In this work, we introduce PandaGuard, a unified and modular framework that models LLM jailbreak safety as a multi-agent system comprising attackers, defenders, and judges. Our framework implements 19 attack methods and 12 defense mechanisms, along with multiple judgment strategies, all within a flexible plugin architecture supporting diverse LLM interfaces, multiple interaction modes, and configuration-driven experimentation that enhances reproducibility and practical deployment. Built on this framework, we develop PandaBench, a comprehensive benchmark that evaluates the interactions between these attack/defense methods across 49 LLMs and various judgment approaches, requiring over 3 billion tokens to execute. Our extensive evaluation reveals key insights into model vulnerabilities, defense cost-performance trade-offs, and judge consistency. We find that no single defense is optimal across all dimensions and that judge disagreement introduces nontrivial variance in safety assessments. We release the code, configurations, and evaluation results to support transparent and reproducible research in LLM safety.

arxiv情報

著者 Guobin Shen,Dongcheng Zhao,Linghao Feng,Xiang He,Jihang Wang,Sicheng Shen,Haibo Tong,Yiting Dong,Jindong Li,Xiang Zheng,Yi Zeng
発行日 2025-05-26 15:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | PandaGuard: Systematic Evaluation of LLM Safety against Jailbreaking Attacks はコメントを受け付けていません

Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers

要約

大規模な言語モデル(LLM)は、従来の技術を進めるために情報検索に広く統合されています。
ただし、LLMが複雑なタスクで正確な知識を求めることを効果的に可能にすることは、マルチホップクエリの複雑さと無関係な取得コンテンツの複雑さにより、依然として課題のままです。
これらの制限に対処するために、エージェントの検索フレームワークであるExSearchを提案します。ここでは、LLMが自己考えられたプロセスを通じて推論が展開するにつれて有用な情報を取得することを学びます。
各ステップで、LLMは何を取得(思考)するかを決定し、外部レトリバー(検索)をトリガーし、次のステップの推論をサポートするために微調整された証拠(記録)を抽出します。
この機能を使用してLLMを有効にするために、ExSearchは一般化された期待最大化アルゴリズムを採用します。
e-stepでは、LLMは複数の検索軌跡を生成し、それぞれに重要な重量を割り当てます。
M-Stepは、再重み付けされた損失関数でLLMを訓練します。
これにより、LLMが独自の生成されたデータから繰り返し学習し、検索のために徐々に改善する自己考えられたループが作成されます。
さらに、このトレーニングプロセスを理論的に分析し、収束保証を確立します。
4つの知識集約型ベンチマークでの広範な実験は、ExSearchがベースラインを大幅に上回ることを示しています。
これらの有望な結果に動機付けられて、将来の作業を促進するために、方法をより広範なシナリオに拡張する拡張機能であるExsearch-Zooを紹介します。

要約(オリジナル)

Large language models (LLMs) have been widely integrated into information retrieval to advance traditional techniques. However, effectively enabling LLMs to seek accurate knowledge in complex tasks remains a challenge due to the complexity of multi-hop queries as well as the irrelevant retrieved content. To address these limitations, we propose EXSEARCH, an agentic search framework, where the LLM learns to retrieve useful information as the reasoning unfolds through a self-incentivized process. At each step, the LLM decides what to retrieve (thinking), triggers an external retriever (search), and extracts fine-grained evidence (recording) to support next-step reasoning. To enable LLM with this capability, EXSEARCH adopts a Generalized Expectation-Maximization algorithm. In the E-step, the LLM generates multiple search trajectories and assigns an importance weight to each; the M-step trains the LLM on them with a re-weighted loss function. This creates a self-incentivized loop, where the LLM iteratively learns from its own generated data, progressively improving itself for search. We further theoretically analyze this training process, establishing convergence guarantees. Extensive experiments on four knowledge-intensive benchmarks show that EXSEARCH substantially outperforms baselines, e.g., +7.8% improvement on exact match score. Motivated by these promising results, we introduce EXSEARCH-Zoo, an extension that extends our method to broader scenarios, to facilitate future work.

arxiv情報

著者 Zhengliang Shi,Lingyong Yan,Dawei Yin,Suzan Verberne,Maarten de Rijke,Zhaochun Ren
発行日 2025-05-26 15:27:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers はコメントを受け付けていません