Beyond Gold Standards: Epistemic Ensemble of LLM Judges for Formal Mathematical Reasoning

要約

オートフォーマル化は、自然言語声明の正式な言語への自動翻訳を可能にすることにより、正式な数学的推論において重要な役割を果たします。
大規模な言語モデル(LLM)を使用した最近の進歩は有望な結果を示していますが、自動体系化を自動的に評価する方法は露出していないままです。
より複雑なドメイン(例:高度な数学)に移動するにつれて、人間の評価には、特に基礎となる声明と背景知識の複雑さが増加するため、かなりの時間とドメインの専門知識が必要です。
LLM-as-a-a-judgeは、そのような評価を自動化するための有望なアプローチを提示します。
ただし、既存の方法は通常、粗粒の一般的な評価基準を採用しています。これにより、高度な正式な数学的推論に対する有効性が制限されます。
この作業では、オートフォーマル化タスクを評価するための体系的で自動的な方法を導入することにより、このギャップに対処するための一歩を踏み出します。
提案された方法は、LLM審査員の認識論的および正式に接地されたアンサンブル(EFG)に基づいており、論理保存(LP)、数学的一貫性(MC)、正式な妥当性(FV)、および正式な品質(FQ)を含む基準で定義され、異なる貢献要因の説明を透明な評価を得ることができます。
提案されたフレームワークを検証して、正式な数学のドメイン内で自己法的化評価のプロキシとして機能します。
全体として、我々の実験は、LLM審査員のEFGアンサンブルが評価に適した新興プロキシであり、特に正式な品質を評価する場合、粗粒モデルよりも人間の評価とより強く相関することを示しています。
これらの調査結果は、特に明確に定義された原子特性に導かれた場合、LLM-As-Judgesが、正式な数学的推論を評価するためのスケーラブルで解釈可能で信頼できるサポートを提供できることを示唆しています。

要約(オリジナル)

Autoformalization plays a crucial role in formal mathematical reasoning by enabling the automatic translation of natural language statements into formal languages. While recent advances using large language models (LLMs) have shown promising results, methods for automatically evaluating autoformalization remain underexplored. As one moves to more complex domains (e.g., advanced mathematics), human evaluation requires significant time and domain expertise, especially as the complexity of the underlying statements and background knowledge increases. LLM-as-a-judge presents a promising approach for automating such evaluation. However, existing methods typically employ coarse-grained and generic evaluation criteria, which limit their effectiveness for advanced formal mathematical reasoning, where quality hinges on nuanced, multi-granular dimensions. In this work, we take a step toward addressing this gap by introducing a systematic, automatic method to evaluate autoformalization tasks. The proposed method is based on an epistemically and formally grounded ensemble (EFG) of LLM judges, defined on criteria encompassing logical preservation (LP), mathematical consistency (MC), formal validity (FV), and formal quality (FQ), resulting in a transparent assessment that accounts for different contributing factors. We validate the proposed framework to serve as a proxy for autoformalization assessment within the domain of formal mathematics. Overall, our experiments demonstrate that the EFG ensemble of LLM judges is a suitable emerging proxy for evaluation, more strongly correlating with human assessments than a coarse-grained model, especially when assessing formal qualities. These findings suggest that LLM-as-judges, especially when guided by a well-defined set of atomic properties, could offer a scalable, interpretable, and reliable support for evaluating formal mathematical reasoning.

arxiv情報

著者 Lan Zhang,Marco Valentino,Andre Freitas
発行日 2025-06-12 17:09:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Gold Standards: Epistemic Ensemble of LLM Judges for Formal Mathematical Reasoning はコメントを受け付けていません

Magistral

要約

Mistralの最初の推論モデル、および独自のスケーラブルな強化学習(RL)パイプラインを紹介します。
以前のモデルから蒸留された既存の実装とRLトレースに依存する代わりに、独自のモデルとインフラストラクチャのみに依存するゼロアップアプローチに従います。
特に、LLMの純粋なRLトレーニングの限界を調査し、モデルの推論言語を強制する簡単な方法を提示し、テキストデータのRLだけが初期チェックポイントの機能のほとんどを維持することを示すスタックを実証します。
テキスト上のRLは、マルチモーダルの理解、指示のフォロー、および関数呼び出しを維持または改善することがわかります。
Mistral Medium 3の上にRLのみを備えた推論のために訓練されているMagistral Mediumを提示し、Matistral Mediumからのコールドスタートデータをさらに含むオープンソースのMagistral Small(Apache 2.0)を紹介します。

要約(オリジナル)

We introduce Magistral, Mistral’s first reasoning model and our own scalable reinforcement learning (RL) pipeline. Instead of relying on existing implementations and RL traces distilled from prior models, we follow a ground up approach, relying solely on our own models and infrastructure. Notably, we demonstrate a stack that enabled us to explore the limits of pure RL training of LLMs, present a simple method to force the reasoning language of the model, and show that RL on text data alone maintains most of the initial checkpoint’s capabilities. We find that RL on text maintains or improves multimodal understanding, instruction following and function calling. We present Magistral Medium, trained for reasoning on top of Mistral Medium 3 with RL alone, and we open-source Magistral Small (Apache 2.0) which further includes cold-start data from Magistral Medium.

arxiv情報

著者 Mistral-AI,:,Abhinav Rastogi,Albert Q. Jiang,Andy Lo,Gabrielle Berrada,Guillaume Lample,Jason Rute,Joep Barmentlo,Karmesh Yadav,Kartik Khandelwal,Khyathi Raghavi Chandu,Léonard Blier,Lucile Saulnier,Matthieu Dinot,Maxime Darrin,Neha Gupta,Roman Soletskyi,Sagar Vaze,Teven Le Scao,Yihan Wang,Adam Yang,Alexander H. Liu,Alexandre Sablayrolles,Amélie Héliou,Amélie Martin,Andy Ehrenberg,Anmol Agarwal,Antoine Roux,Arthur Darcet,Arthur Mensch,Baptiste Bout,Baptiste Rozière,Baudouin De Monicault,Chris Bamford,Christian Wallenwein,Christophe Renaudin,Clémence Lanfranchi,Darius Dabert,Devon Mizelle,Diego de las Casas,Elliot Chane-Sane,Emilien Fugier,Emma Bou Hanna,Gauthier Delerce,Gauthier Guinet,Georgii Novikov,Guillaume Martin,Himanshu Jaju,Jan Ludziejewski,Jean-Hadrien Chabran,Jean-Malo Delignon,Joachim Studnia,Jonas Amar,Josselin Somerville Roberts,Julien Denize,Karan Saxena,Kush Jain,Lingxiao Zhao,Louis Martin,Luyu Gao,Lélio Renard Lavaud,Marie Pellat,Mathilde Guillaumin,Mathis Felardos,Maximilian Augustin,Mickaël Seznec,Nikhil Raghuraman,Olivier Duchenne,Patricia Wang,Patrick von Platen,Patryk Saffer,Paul Jacob,Paul Wambergue,Paula Kurylowicz,Pavankumar Reddy Muddireddy,Philomène Chagniot,Pierre Stock,Pravesh Agrawal,Romain Sauvestre,Rémi Delacourt,Sanchit Gandhi,Sandeep Subramanian,Shashwat Dalal,Siddharth Gandhi,Soham Ghosh,Srijan Mishra,Sumukh Aithal,Szymon Antoniak,Thibault Schueller,Thibaut Lavril,Thomas Robert,Thomas Wang,Timothée Lacroix,Valeriia Nemychnikova,Victor Paltz,Virgile Richard,Wen-Ding Li,William Marshall,Xuanyu Zhang,Yunhao Tang
発行日 2025-06-12 17:22:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Magistral はコメントを受け付けていません

Efficiently Identifying Watermarked Segments in Mixed-Source Texts

要約

大規模な言語モデル(LLM)のテキスト透かしは、合成テキストを検出するためにますます使用され、偽のニュースや学問的不正などの誤用ケースを緩和します。
既存の透かし検出手法は、主にドキュメント全体を透かし型に分類するかどうかに分類することに焦点を当てていますが、多くの場合、より長い混合ソース文書内で個々の透かしセグメントを識別する一般的なシナリオを無視します。
盗作検出システムからインスピレーションを得て、部分的な透かし検出のための2つの新しい方法を提案します。
まず、長いテキストに透かしセグメントがあるかどうかを判断することを目的としたジオメトリカバー検出フレームワークを開発します。
第二に、テキスト内の透かしセグメントの正確な場所を特定するために、適応的なオンライン学習アルゴリズムを紹介します。
3つの人気のある透かし技術(KGWウォーターマーク、Unigram-Watermark、およびGumbel-Watermark)で評価されたこのアプローチは、高精度で、ベースライン方法を大幅に上回ることができます。
さらに、私たちのフレームワークは、他の透かし技術に適応でき、正確な透かし検出のための新しい洞察を提供します。
私たちのコードは、https://github.com/xuandongzhao/llm-watermark-locationで公開されています

要約(オリジナル)

Text watermarks in large language models (LLMs) are increasingly used to detect synthetic text, mitigating misuse cases like fake news and academic dishonesty. While existing watermarking detection techniques primarily focus on classifying entire documents as watermarked or not, they often neglect the common scenario of identifying individual watermark segments within longer, mixed-source documents. Drawing inspiration from plagiarism detection systems, we propose two novel methods for partial watermark detection. First, we develop a geometry cover detection framework aimed at determining whether there is a watermark segment in long text. Second, we introduce an adaptive online learning algorithm to pinpoint the precise location of watermark segments within the text. Evaluated on three popular watermarking techniques (KGW-Watermark, Unigram-Watermark, and Gumbel-Watermark), our approach achieves high accuracy, significantly outperforming baseline methods. Moreover, our framework is adaptable to other watermarking techniques, offering new insights for precise watermark detection. Our code is publicly available at https://github.com/XuandongZhao/llm-watermark-location

arxiv情報

著者 Xuandong Zhao,Chenwen Liao,Yu-Xiang Wang,Lei Li
発行日 2025-06-12 17:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficiently Identifying Watermarked Segments in Mixed-Source Texts はコメントを受け付けていません

Weak-to-Strong Jailbreaking on Large Language Models

要約

大規模な言語モデル(LLM)は、脱獄攻撃に対して脆弱であり、有害、非倫理的、または偏ったテキスト世代をもたらします。
ただし、既存の脱却方法は計算的にコストがかかります。
このホワイトペーパーでは、整理されたLLMSが有害なテキストを作成するための効率的な推論時間攻撃である、弱くて強力な脱獄攻撃を提案します。
私たちの重要な直観は、刑務所が壊れて整列したモデルが初期デコード分布でのみ異なるという観察に基づいています。
弱い攻撃から強い攻撃の重要な技術的洞察は、2つの小さなモデル(安全で安全でないモデル)を使用して、大幅に大きな安全なモデルのデコード確率を敵対的に変更することです。
3つの組織からの5つの多様なオープンソースLLMに対する弱い攻撃を評価します。
結果は、私たちの方法が、例ごとに1つのフォワードパスだけで、2つのデータセットでミスアライメント率を99%以上に上げることができることを示しています。
私たちの研究は、LLMSを調整するときに対処する必要がある緊急の安全性の問題を明らかにしています。
最初の試みとして、私たちはそのような攻撃から保護するための防衛戦略を提案しますが、より高度な防御を作成することは依然として困難です。
メソッドを複製するためのコードは、https://github.com/xuandongzhao/weak-to-strongで入手できます

要約(オリジナル)

Large language models (LLMs) are vulnerable to jailbreak attacks – resulting in harmful, unethical, or biased text generations. However, existing jailbreaking methods are computationally costly. In this paper, we propose the weak-to-strong jailbreaking attack, an efficient inference time attack for aligned LLMs to produce harmful text. Our key intuition is based on the observation that jailbroken and aligned models only differ in their initial decoding distributions. The weak-to-strong attack’s key technical insight is using two smaller models (a safe and an unsafe one) to adversarially modify a significantly larger safe model’s decoding probabilities. We evaluate the weak-to-strong attack on 5 diverse open-source LLMs from 3 organizations. The results show our method can increase the misalignment rate to over 99% on two datasets with just one forward pass per example. Our study exposes an urgent safety issue that needs to be addressed when aligning LLMs. As an initial attempt, we propose a defense strategy to protect against such attacks, but creating more advanced defenses remains challenging. The code for replicating the method is available at https://github.com/XuandongZhao/weak-to-strong

arxiv情報

著者 Xuandong Zhao,Xianjun Yang,Tianyu Pang,Chao Du,Lei Li,Yu-Xiang Wang,William Yang Wang
発行日 2025-06-12 17:32:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Weak-to-Strong Jailbreaking on Large Language Models はコメントを受け付けていません

Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization

要約

機械的解釈可能性の中心的な目標は、その出力を因果的に説明する大規模な言語モデル(LLMS)の適切な分析単位を特定することです。
初期の研究は個々のニューロンに焦点を当てていましたが、ニューロンがしばしば複数の概念をエンコードしているという証拠は、活性化空間の方向の分析への移行を動機付けました。
重要な質問は、監視されていない方法で解釈可能な機能をキャプチャする方向を見つける方法です。
現在の方法は、スパースの自動エンコーダー(SAE)を使用した辞書学習に依存しており、一般的に残留ストリームのアクティベーションで訓練され、ゼロからの方向性を学習します。
ただし、SAEはしばしば因果評価に苦労し、その学習がモデルの計算に明示的に結び付けられていないため、本質的な解釈可能性を欠いています。
ここでは、MLPの活性化を半同意的なマトリックス因数分解(SNMF)で直接分解することにより、これらの制限に取り組みます。これにより、学習された特徴は(a)同時活性ニューロンのまばらな線形結合、(b)活性化入力にマッピングされ、直接解釈可能になります。
Llama 3.1、Gemma 2、およびGPT-2での実験は、SNMF派生機能がSAEと因果ステアリングの強力な監視されたベースライン(違い)を上回り、人間の解釈可能な概念に合わせて誘導することを上回ることを示しています。
さらなる分析により、特定のニューロンの組み合わせが意味的に関連した機能全体で再利用され、MLPの活性化空間に階層構造が露出していることが明らかになりました。
一緒に、これらの結果は、SNMFを、解釈可能な機能を特定し、LLMの概念表現を分析するためのシンプルで効果的なツールとして位置付けています。

要約(オリジナル)

A central goal for mechanistic interpretability has been to identify the right units of analysis in large language models (LLMs) that causally explain their outputs. While early work focused on individual neurons, evidence that neurons often encode multiple concepts has motivated a shift toward analyzing directions in activation space. A key question is how to find directions that capture interpretable features in an unsupervised manner. Current methods rely on dictionary learning with sparse autoencoders (SAEs), commonly trained over residual stream activations to learn directions from scratch. However, SAEs often struggle in causal evaluations and lack intrinsic interpretability, as their learning is not explicitly tied to the computations of the model. Here, we tackle these limitations by directly decomposing MLP activations with semi-nonnegative matrix factorization (SNMF), such that the learned features are (a) sparse linear combinations of co-activated neurons, and (b) mapped to their activating inputs, making them directly interpretable. Experiments on Llama 3.1, Gemma 2 and GPT-2 show that SNMF derived features outperform SAEs and a strong supervised baseline (difference-in-means) on causal steering, while aligning with human-interpretable concepts. Further analysis reveals that specific neuron combinations are reused across semantically-related features, exposing a hierarchical structure in the MLP’s activation space. Together, these results position SNMF as a simple and effective tool for identifying interpretable features and dissecting concept representations in LLMs.

arxiv情報

著者 Or Shafran,Atticus Geiger,Mor Geva
発行日 2025-06-12 17:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization はコメントを受け付けていません

Improving LLM Safety Alignment with Dual-Objective Optimization

要約

大規模な言語モデル(LLM)の既存のトレーニング時間安全アライメント手法は、脱獄攻撃に対して脆弱なままです。
広く展開されているアライメント法である直接選好最適化(DPO)は、その損失関数が拒否学習の最適であることを証明するため、実験的および理論的コンテキストの両方で制限を示します。
グラジエントベースの分析を通じて、これらの欠点を特定し、DPOの目的を2つのコンポーネントに解くという安全な安全調整を改善することを提案します。(1)部分的に安全な世代が生み出された場合でも拒否を促進する堅牢な拒否トレーニング、および(2)有害な知識の標的化されていない。
このアプローチは、分散および分散療法シナリオの両方にわたって、プレフィング、接尾辞、マルチターン攻撃など、幅広い脱獄攻撃に対するLLMの堅牢性を大幅に向上させます。
さらに、報酬ベースのトークンレベルの重み付けメカニズムを拒否学習に組み込むことにより、批判的な拒否トークンを強調する方法を紹介します。
また、私たちの研究は、脱獄攻撃への堅牢性が、トレーニングプロセスのトークン分布シフトと拒否と有害なトークンの内部表現と相関しており、LLM安全アライメントにおける将来の研究のための貴重な方向性を提供することを示唆しています。
このコードは、https://github.com/wicai24/door-alignmentで入手できます

要約(オリジナル)

Existing training-time safety alignment techniques for large language models (LLMs) remain vulnerable to jailbreak attacks. Direct preference optimization (DPO), a widely deployed alignment method, exhibits limitations in both experimental and theoretical contexts as its loss function proves suboptimal for refusal learning. Through gradient-based analysis, we identify these shortcomings and propose an improved safety alignment that disentangles DPO objectives into two components: (1) robust refusal training, which encourages refusal even when partial unsafe generations are produced, and (2) targeted unlearning of harmful knowledge. This approach significantly increases LLM robustness against a wide range of jailbreak attacks, including prefilling, suffix, and multi-turn attacks across both in-distribution and out-of-distribution scenarios. Furthermore, we introduce a method to emphasize critical refusal tokens by incorporating a reward-based token-level weighting mechanism for refusal learning, which further improves the robustness against adversarial exploits. Our research also suggests that robustness to jailbreak attacks is correlated with token distribution shifts in the training process and internal representations of refusal and harmful tokens, offering valuable directions for future research in LLM safety alignment. The code is available at https://github.com/wicai24/DOOR-Alignment

arxiv情報

著者 Xuandong Zhao,Will Cai,Tianneng Shi,David Huang,Licong Lin,Song Mei,Dawn Song
発行日 2025-06-12 17:38:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | Improving LLM Safety Alignment with Dual-Objective Optimization はコメントを受け付けていません

Dynamic Epistemic Friction in Dialogue

要約

大規模な言語モデル(LLM)を人間の好みに合わせて最近の開発により、人間と協調的なシナリオでの有用性が大幅に向上しました。
しかし、そのようなアプローチは、しばしば「認識論的摩擦」、または新しい、矛盾する、または曖昧な情報に応じて信念を更新する際に遭遇する固有の抵抗の重要な役割を無視します。
この論文では、エージェントの現在の信念状態と外部の証拠によって裏付けられた新しい命題との間の不整合を特徴とする認識論的統合に対する抵抗として、動的認識摩擦を定義します。
これは、動的認識論理の枠組み(Van Benthem and Pacuit、2011)の枠組みの中で位置付けられます。ここでは、摩擦は相互作用中に非自明の信念反応として現れます。
次に、この認識論的摩擦のモデルが対話における信念の更新を効果的に予測する方法を示す状況的な共同作業からの分析を提示し、その後、認識論的抵抗または摩擦の尺度としての信念のアライメントのモデルを、実際の対話シナリオの複雑さに対応するために自然により洗練される方法について説明します。

要約(オリジナル)

Recent developments in aligning Large Language Models (LLMs) with human preferences have significantly enhanced their utility in human-AI collaborative scenarios. However, such approaches often neglect the critical role of ‘epistemic friction,’ or the inherent resistance encountered when updating beliefs in response to new, conflicting, or ambiguous information. In this paper, we define dynamic epistemic friction as the resistance to epistemic integration, characterized by the misalignment between an agent’s current belief state and new propositions supported by external evidence. We position this within the framework of Dynamic Epistemic Logic (Van Benthem and Pacuit, 2011), where friction emerges as nontrivial belief-revision during the interaction. We then present analyses from a situated collaborative task that demonstrate how this model of epistemic friction can effectively predict belief updates in dialogues, and we subsequently discuss how the model of belief alignment as a measure of epistemic resistance or friction can naturally be made more sophisticated to accommodate the complexities of real-world dialogue scenarios.

arxiv情報

著者 Timothy Obiso,Kenneth Lai,Abhijnan Nath,Nikhil Krishnaswamy,James Pustejovsky
発行日 2025-06-12 17:41:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Dynamic Epistemic Friction in Dialogue はコメントを受け付けていません

Build the web for agents, not agents for the web

要約

大規模な言語モデル(LLMS)とマルチモーダルのカウンターパートの最近の進歩は、Web環境内でタスクを自律的にナビゲートおよび完成させることができるWebエージェントの開発に大きな関心を高めました。
複雑なWebインタラクションを自動化するための非常に大きな約束を保持している間、現在のアプローチは、人間が設計したインターフェイスとLLM機能の間の根本的な不一致により、大きな課題に直面しています。
現在の方法は、大規模なDOMツリーを処理したり、追加情報で拡張されたスクリーンショットに依存したり、APIインタラクションを通してユーザーインターフェイスをバイパスしたりするかどうかにかかわらず、Web入力の固有の複雑さと格闘しています。
このポジションペーパーは、Webエージェントの研究におけるパラダイムシフトを提唱しています。ウェブエージェントに人間向けに設計されたインターフェイスに適応することを強制するのではなく、エージェント機能専用に最適化された新しい相互作用パラダイムを開発する必要があります。
この目的のために、エージェントがウェブサイトをナビゲートするために特別に設計されたインターフェイスであるエージェントWebインターフェイス(AWI)の概念を紹介します。
すべての主要な利害関係者の利益を説明するために、安全性、効率、および標準化を強調し、AWI設計のための6つの指導原則を確立します。
この再構成の目的は、既存のインターフェイスの基本的な制限を克服し、より効率的で信頼性が高く、透明なWebエージェント設計への道を開くことを目的としています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) and multimodal counterparts have spurred significant interest in developing web agents — AI systems capable of autonomously navigating and completing tasks within web environments. While holding tremendous promise for automating complex web interactions, current approaches face substantial challenges due to the fundamental mismatch between human-designed interfaces and LLM capabilities. Current methods struggle with the inherent complexity of web inputs, whether processing massive DOM trees, relying on screenshots augmented with additional information, or bypassing the user interface entirely through API interactions. This position paper advocates for a paradigm shift in web agent research: rather than forcing web agents to adapt to interfaces designed for humans, we should develop a new interaction paradigm specifically optimized for agentic capabilities. To this end, we introduce the concept of an Agentic Web Interface (AWI), an interface specifically designed for agents to navigate a website. We establish six guiding principles for AWI design, emphasizing safety, efficiency, and standardization, to account for the interests of all primary stakeholders. This reframing aims to overcome fundamental limitations of existing interfaces, paving the way for more efficient, reliable, and transparent web agent design, which will be a collaborative effort involving the broader ML community.

arxiv情報

著者 Xing Han Lù,Gaurav Kamath,Marius Mosbach,Siva Reddy
発行日 2025-06-12 17:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Build the web for agents, not agents for the web はコメントを受け付けていません

How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?

要約

最近の推論モデルは、彼らの推論を反映し、バックトラックし、自己検証する能力を示しています。これは、間違いを見つけて正確なソリューションに到達する上で重要です。
発生する自然な問題は、モデルがそのような自己評価をどのように効果的に実行できるかということです。
推論モデルが4つのタイプの役に立たない考え、疑問とは無関係の考え、質問をわずかに異なる質問と誤って指定する考え、そして誤った答えにつながる考えの4つのタイプの無益な考えからどのように識別して回復するかを調査することで、この質問に取り組みます。
モデルは、ほとんどの役に立たない思考を特定するのに効果的であるが、これらが思考プロセスに注入されたときに同じ思考から回復するのに苦労し、大幅なパフォーマンス低下を引き起こすことを示しています。
モデルは、注入された無関係な思考の推論の境界線を単純に継続する傾向があります。これは、自己再評価能力が一般的な「メタ認知的」認識とはほど遠いことを示しています。
さらに、推論を再評価するように指示された場合でも、大規模なモデルが短い無関係な思考から回復するために、より大きなモデルが小さなモデルよりも苦労している非逆スケーリングの傾向を観察します。
これらの発見の意味を、無関係な思考注入を使用した脱獄実験での意味を示します。これは、最小のモデルが有害な応答のトリガー思考によって最も気を散らすものではないことを示しています。
全体として、私たちの調査結果は、推論モデルの自己再評価の改善を求めており、より良い推論とより安全なシステムを開発しています。

要約(オリジナル)

Recent reasoning models show the ability to reflect, backtrack, and self-validate their reasoning, which is crucial in spotting mistakes and arriving at accurate solutions. A natural question that arises is how effectively models can perform such self-reevaluation. We tackle this question by investigating how well reasoning models identify and recover from four types of unhelpful thoughts: uninformative rambling thoughts, thoughts irrelevant to the question, thoughts misdirecting the question as a slightly different question, and thoughts that lead to incorrect answers. We show that models are effective at identifying most unhelpful thoughts but struggle to recover from the same thoughts when these are injected into their thinking process, causing significant performance drops. Models tend to naively continue the line of reasoning of the injected irrelevant thoughts, which showcases that their self-reevaluation abilities are far from a general ‘meta-cognitive’ awareness. Moreover, we observe non/inverse-scaling trends, where larger models struggle more than smaller ones to recover from short irrelevant thoughts, even when instructed to reevaluate their reasoning. We demonstrate the implications of these findings with a jailbreak experiment using irrelevant thought injection, showing that the smallest models are the least distracted by harmful-response-triggering thoughts. Overall, our findings call for improvement in self-reevaluation of reasoning models to develop better reasoning and safer systems.

arxiv情報

著者 Sohee Yang,Sang-Woo Lee,Nora Kassner,Daniela Gottesman,Sebastian Riedel,Mor Geva
発行日 2025-06-12 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts? はコメントを受け付けていません

On the Geometry of Receiver Operating Characteristic and Precision-Recall Curves

要約

バイナリ分類問題における受信機動作特性(ROC)および精密リコール(PR)曲線のジオメトリを研究します。
重要な発見は、最も一般的に使用されるバイナリ分類メトリックの多くは、単に構成関数の関数である$ g:= f_p \ circ f_n^{ – 1} $であることです。
この幾何学的視点は、動作点の選択を容易にし、決定のしきい値の効果を理解し、分類子間の比較を促進します。
また、ROC/PR曲線の形状とジオメトリが分類器の動作をどのように反映するかを説明するのにも役立ち、コンテキスト固有の制約を備えた特定のアプリケーション向けに最適化された分類器を構築するための客観的なツールを提供します。
さらに、分類器の優位性の条件を調査し、ROCおよびPR形状に対するクラスの分離性と分散の影響を示す分析的および数値的な例を提示し、陽性クラスの漏れ関数$ g(\ cdot)$とKullback-Leibler Divergenceとの間のリンクを導き出します。
このフレームワークは、モデルのキャリブレーション、コストに敏感な最適化、実際の容量制約の下での操作ポイント選択などの実用的な考慮事項を強調し、分類器の展開と意思決定により多くの情報に基づいたアプローチを可能にします。

要約(オリジナル)

We study the geometry of Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves in binary classification problems. The key finding is that many of the most commonly used binary classification metrics are merely functions of the composition function $G := F_p \circ F_n^{-1}$, where $F_p(\cdot)$ and $F_n(\cdot)$ are the class-conditional cumulative distribution functions of the classifier scores in the positive and negative classes, respectively. This geometric perspective facilitates the selection of operating points, understanding the effect of decision thresholds, and comparison between classifiers. It also helps explain how the shapes and geometry of ROC/PR curves reflect classifier behavior, providing objective tools for building classifiers optimized for specific applications with context-specific constraints. We further explore the conditions for classifier dominance, present analytical and numerical examples demonstrating the effects of class separability and variance on ROC and PR geometries, and derive a link between the positive-to-negative class leakage function $G(\cdot)$ and the Kullback–Leibler divergence. The framework highlights practical considerations, such as model calibration, cost-sensitive optimization, and operating point selection under real-world capacity constraints, enabling more informed approaches to classifier deployment and decision-making.

arxiv情報

著者 Reza Sameni
発行日 2025-06-12 15:36:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.ML, stat.TH | On the Geometry of Receiver Operating Characteristic and Precision-Recall Curves はコメントを受け付けていません