Labelling Data with Unknown References

要約

評価者が信頼できるのは、ラベラーとしての性能を測定するための、合意された方法が存在するときである。信頼性を確立する2つの方法は、テストするか、評価者がコーパスのラベル付け方法を「知っている」と仮定することである。前者はデータを必要とし、後者は仮定であって証拠ではない。前者はデータを必要とし、後者は証拠ではなく仮定である。これに対処するために、既存の参照なしで評価者の信頼を確立するアルゴリズム(`No-Data Algorithm’)を紹介する。我々のアルゴリズムは、評価者に連続的に課題を課すことで機能する。評価者がコーパスにラベルを付ける方法を実際に知っている場合、No-Dataアルゴリズムはその出力を受け入れ、逆に評価者がそれを証明できない場合、信頼できない評価者にフラグを立てる。正しさの正式な証明と限定的な実験を示す。

要約(オリジナル)

An evaluator is trustworthy when there exists some agreed-upon way to measure its performance as a labeller. The two ways to establish trustworthiness are either by testing it, or by assuming the evaluator `knows’ somehow the way to label the corpus. However, if labelled references (e.g., a development set) are unavailable, neither of these approaches work: the former requires the data, and the latter is an assumption, not evidence. To address this, we introduce an algorithm (the `No-Data Algorithm’) by which to establish trust in an evaluator without any existing references. Our algorithm works by successively posing challenges to said evaluator. We show that this is sufficient to establish trustworthiness w.h.p., in such a way that when the evaluator actually knows the way to label the corpus, the No-Data Algorithm accepts its output; and, conversely, flags untrustworthy evaluators when these are unable to prove it. We present formal proofs of correctness and limited experiments.

arxiv情報

著者 Adrian de Wynter
発行日 2025-06-03 17:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.DS | Labelling Data with Unknown References はコメントを受け付けていません

Unveiling Privacy Risks in LLM Agent Memory

要約

大規模言語モデル(LLM)エージェントは、実世界の様々なアプリケーションでますます普及している。LLMエージェントは、プライベートなユーザとエージェントのやり取りをメモリモジュールに保存し、デモンストレーションを行うことで意思決定を強化する。この研究では、我々が提案するMemory EXTRaction Attack (MEXTRA)に対するLLMエージェントの脆弱性を、ブラックボックス設定下で系統的に調査する。メモリから個人情報を抽出するために、我々は効果的な攻撃プロンプトの設計と、LLMエージェントに関する異なる知識レベルに基づく自動プロンプト生成方法を提案する。つの代表的なエージェントを用いた実験により、MEXTRAの有効性を実証する。さらに、エージェント設計者と攻撃者の両方の視点から、メモリリークに影響を与える主な要因を探る。我々の発見は、LLMエージェントの設計と配備における効果的なメモリ安全策の緊急の必要性を強調している。

要約(オリジナル)

Large Language Model (LLM) agents have become increasingly prevalent across various real-world applications. They enhance decision-making by storing private user-agent interactions in the memory module for demonstrations, introducing new privacy risks for LLM agents. In this work, we systematically investigate the vulnerability of LLM agents to our proposed Memory EXTRaction Attack (MEXTRA) under a black-box setting. To extract private information from memory, we propose an effective attacking prompt design and an automated prompt generation method based on different levels of knowledge about the LLM agent. Experiments on two representative agents demonstrate the effectiveness of MEXTRA. Moreover, we explore key factors influencing memory leakage from both the agent designer’s and the attacker’s perspectives. Our findings highlight the urgent need for effective memory safeguards in LLM agent design and deployment.

arxiv情報

著者 Bo Wang,Weiyi He,Shenglai Zeng,Zhen Xiang,Yue Xing,Jiliang Tang,Pengfei He
発行日 2025-06-03 17:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR | Unveiling Privacy Risks in LLM Agent Memory はコメントを受け付けていません

How Explanations Leak the Decision Logic: Stealing Graph Neural Networks via Explanation Alignment

要約

グラフニューラルネットワーク(GNN)は、創薬や金融分析などの領域において、グラフ構造化されたデータを分析するために不可欠なツールとなっており、モデルの透明性に対する要求が高まっている。最近の説明可能なGNNの進歩は、予測に影響を与える重要な部分グラフを明らかにすることで、このニーズに対応しているが、これらの説明メカニズムは、不注意にモデルをセキュリティリスクにさらす可能性がある。本稿では、このような説明が、モデル盗用に悪用される可能性のある重要な決定ロジックをどのように漏らす可能性があるかを調査する。本論文では{method}を提案する。{method}は、限定されたクエリの下での効率的なトレーニングのためのガイド付きデータ増強と、意思決定ロジックを捕捉するための説明アライメントを統合した新しい盗用フレームワークであり、ターゲットモデルの予測動作と基本的な推論パターンの両方を効果的に複製することを可能にする。分子グラフデータセットを用いた実験により、我々のアプローチがモデル盗用において従来の手法よりも優れていることが実証された。この研究は、機密性の高い領域における説明可能なGNNの展開のための重要なセキュリティ上の考慮事項を強調し、説明に基づく攻撃に対する防御手段の必要性を示唆している。我々のコードはhttps://github.com/beanmah/EGSteal。

要約(オリジナル)

Graph Neural Networks (GNNs) have become essential tools for analyzing graph-structured data in domains such as drug discovery and financial analysis, leading to growing demands for model transparency. Recent advances in explainable GNNs have addressed this need by revealing important subgraphs that influence predictions, but these explanation mechanisms may inadvertently expose models to security risks. This paper investigates how such explanations potentially leak critical decision logic that can be exploited for model stealing. We propose {\method}, a novel stealing framework that integrates explanation alignment for capturing decision logic with guided data augmentation for efficient training under limited queries, enabling effective replication of both the predictive behavior and underlying reasoning patterns of target models. Experiments on molecular graph datasets demonstrate that our approach shows advantages over conventional methods in model stealing. This work highlights important security considerations for the deployment of explainable GNNs in sensitive domains and suggests the need for protective measures against explanation-based attacks. Our code is available at https://github.com/beanmah/EGSteal.

arxiv情報

著者 Bin Ma,Yuyuan Feng,Minhua Lin,Enyan Dai
発行日 2025-06-03 17:11:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | How Explanations Leak the Decision Logic: Stealing Graph Neural Networks via Explanation Alignment はコメントを受け付けていません

Modelling the Effects of Hearing Loss on Neural Coding in the Auditory Midbrain with Variational Conditioning

要約

聴覚の基礎となる音から神経活動へのマッピングは、非常に非線形である。蝸牛におけるこのマッピングの最初の数段階は、手作業で構築された生物物理モデルや、最近では生物物理モデルによってシミュレートされたデータセットで学習されたDNNモデルによって、うまくモデル化されている。聴覚脳のモデリングは、中枢聴覚処理が複雑すぎて手作業でモデルを構築することが難しく、また、DNNモデルを直接訓練するためのデータセットが入手できなかったため、困難な課題となっていた。最近の研究では、聴覚中脳の大規模で高解像度の神経記録を利用して、正常な聴覚のDNNモデルを構築し、大きな成功を収めている。しかし、このモデルは聴覚処理がすべての脳で同じであると仮定しているため、難聴による様々な影響を捉えることができない。 我々は、健常動物と騒音にさらされた動物の聴覚中脳の神経活動の記録から、難聴の空間を直接エンコードすることを学習する新しい変分条件モデルを提案する。難聴のパラメータは動物ごとに6つだけであり、我々のモデルは健聴動物の神経反応における説明可能な分散の62%、難聴動物の68%を正確に予測する。このモデルは、学習した条件付けパラメータのみをベイズ最適化でフィッティングすることで、サンプル外の動物の現実的な活動をシミュレートするために使用できることを実証し、15-30回の反復で最適値の2%以内のクロスエントロピー損失を達成した。より多くの動物を訓練データに含めることで、未見の動物に対する性能がわずかに向上した。このモデルにより、将来、聴覚障害者の脳の正常な神経符号化を直接復元するように訓練されたパラメータ化された難聴補償モデルを開発することが可能になる。

要約(オリジナル)

The mapping from sound to neural activity that underlies hearing is highly non-linear. The first few stages of this mapping in the cochlea have been modelled successfully, with biophysical models built by hand and, more recently, with DNN models trained on datasets simulated by biophysical models. Modelling the auditory brain has been a challenge because central auditory processing is too complex for models to be built by hand, and datasets for training DNN models directly have not been available. Recent work has taken advantage of large-scale high resolution neural recordings from the auditory midbrain to build a DNN model of normal hearing with great success. But this model assumes that auditory processing is the same in all brains, and therefore it cannot capture the widely varying effects of hearing loss. We propose a novel variational-conditional model to learn to encode the space of hearing loss directly from recordings of neural activity in the auditory midbrain of healthy and noise exposed animals. With hearing loss parametrised by only 6 free parameters per animal, our model accurately predicts 62\% of the explainable variance in neural responses from normal hearing animals and 68% for hearing impaired animals, within a few percentage points of state of the art animal specific models. We demonstrate that the model can be used to simulate realistic activity from out of sample animals by fitting only the learned conditioning parameters with Bayesian optimisation, achieving crossentropy loss within 2% of the optimum in 15-30 iterations. Including more animals in the training data slightly improved the performance on unseen animals. This model will enable future development of parametrised hearing loss compensation models trained to directly restore normal neural coding in hearing impaired brains, which can be quickly fitted for a new user by human in the loop optimisation.

arxiv情報

著者 Lloyd Pellatt,Fotios Drakopoulos,Shievanie Sabesan,Nicholas A. Lesica
発行日 2025-06-03 17:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, q-bio.NC | Modelling the Effects of Hearing Loss on Neural Coding in the Auditory Midbrain with Variational Conditioning はコメントを受け付けていません

ChainMarks: Securing DNN Watermark with Cryptographic Chain

要約

ディープニューラルネットワーク(DNN)モデルの普及に伴い、モデル所有者の知的財産を保護するために動的透かし技術が使用されている。しかし、最近の研究では、既存の電子透かしスキームは、電子透かし除去攻撃や曖昧性攻撃に対して脆弱であることが示されている。その上、電子透かしの存在を判断する基準が曖昧であるため、このような攻撃の可能性がさらに高まっている。本論文では、ChainMarksと名付けられた安全なDNN電子透かし方式を提案する。この方式は、トリガー入力に暗号チェーンを導入することにより、安全で頑健な電子透かしを生成し、電子透かしの存在を判定するために2相モンテカルロ法を利用する。まず、ChainMarksは秘密鍵にハッシュ関数を繰り返し適用することで、電子透かしデータセットとしてトリガー入力を生成し、トリガー入力に関連付けられたターゲットラベルはモデル所有者のデジタル署名から生成される。そして、元のデータセットと透かしデータセットの両方に対してDNNを学習させることで、透かしモデルが生成される。透かしを検証するために、トリガー入力の予測ラベルとターゲットラベルを比較し、特定のモデルの分類確率を考慮した、より正確な判定閾値で所有者を判定する。実験の結果、ChainMarksは最先端の電子透かしスキームと比較して、より高いレベルの堅牢性と安全性を示す。より優れた限界効用により、ChainMarksは同レベルの電子透かし精度でDNNモデルにおける電子透かしの存在をより高い確率で保証する。

要約(オリジナル)

With the widespread deployment of deep neural network (DNN) models, dynamic watermarking techniques are being used to protect the intellectual property of model owners. However, recent studies have shown that existing watermarking schemes are vulnerable to watermark removal and ambiguity attacks. Besides, the vague criteria for determining watermark presence further increase the likelihood of such attacks. In this paper, we propose a secure DNN watermarking scheme named ChainMarks, which generates secure and robust watermarks by introducing a cryptographic chain into the trigger inputs and utilizes a two-phase Monte Carlo method for determining watermark presence. First, ChainMarks generates trigger inputs as a watermark dataset by repeatedly applying a hash function over a secret key, where the target labels associated with trigger inputs are generated from the digital signature of model owner. Then, the watermarked model is produced by training a DNN over both the original and watermark datasets. To verify watermarks, we compare the predicted labels of trigger inputs with the target labels and determine ownership with a more accurate decision threshold that considers the classification probability of specific models. Experimental results show that ChainMarks exhibits higher levels of robustness and security compared to state-of-the-art watermarking schemes. With a better marginal utility, ChainMarks provides a higher probability guarantee of watermark presence in DNN models with the same level of watermark accuracy.

arxiv情報

著者 Brian Choi,Shu Wang,Isabelle Choi,Kun Sun
発行日 2025-06-03 17:16:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR | ChainMarks: Securing DNN Watermark with Cryptographic Chain はコメントを受け付けていません

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

要約

本論文では、TalkingMachinesを紹介する。TalkingMachinesは、事前に学習されたビデオ生成モデルを、リアルタイムで音声駆動のキャラクターアニメーターに変換する効率的なフレームワークである。TalkingMachinesは、音声ラージ・ランゲージ・モデル(LLM)をビデオ生成基礎モデルと統合することで、自然な会話体験を可能にする。我々の主な貢献は以下の通り:(2)双方向教師モデルからスパース因果自己回帰生徒モデルへの非対称知識蒸留により、エラーの蓄積なしに無限のビデオストリーミングを可能にする:(c)フレーム生成スループットを最大化するための冗長な再計算の排除。デモビデオはこちら – https://aaxwaz.github.io/TalkingMachines/

要約(オリジナル)

In this paper, we present TalkingMachines — an efficient framework that transforms pretrained video generation models into real-time, audio-driven character animators. TalkingMachines enables natural conversational experiences by integrating an audio large language model (LLM) with our video generation foundation model. Our primary contributions include: (1) We adapt a pretrained SOTA image-to-video DiT into an audio-driven avatar generation model of 18 billion parameters; (2) We enable infinite video streaming without error accumulation through asymmetric knowledge distillation from a bidirectional teacher model into a sparse causal, autoregressive student model; (3) We design a high-throughput, low-latency inference pipeline incorporating several key engineering optimizations such as: (a) disaggregation of the DiT and VAE decoder across separate devices, (b) efficient overlap of inter-device communication and computation using CUDA streams, (c) elimination of redundant recomputations to maximize frame-generation throughput. Please see demo videos here – https://aaxwaz.github.io/TalkingMachines/

arxiv情報

著者 Chetwin Low,Weimin Wang
発行日 2025-06-03 17:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.GR, cs.SD | TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models はコメントを受け付けていません

Retrieval-Augmented Generation as Noisy In-Context Learning: A Unified Theory and Risk Bounds

要約

検索支援型生成(RAG)は、外部知識を用いてLLMを支援することで、近年多くの経験的成功を収めている。しかし、その理論的側面はほとんど未解明のままである。本稿では、文脈内線形回帰におけるRAGの有限サンプル汎化境界を初めて提案し、正確なバイアスと分散のトレードオフを導出する。我々のフレームワークは、検索されたテキストをクエリ依存のノイズの多い文脈内例とみなし、古典的な文脈内学習(ICL)と標準的なRAGを極限ケースとして回復する。我々の分析は、ICLとは対照的に、RAGには汎化誤差の本質的な上限が存在することを示唆している。さらに、我々のフレームワークは、一様なRAGノイズと非一様なRAGノイズを導入することで、学習データからの検索と外部コーパスからの検索の両方をモデル化することができる。我々の理論に沿って、Natural QuestionsやTriviaQAのような一般的なQAベンチマークを用いた実験により、ICLとRAGのサンプル効率を実証的に示す。

要約(オリジナル)

Retrieval-augmented generation (RAG) has seen many empirical successes in recent years by aiding the LLM with external knowledge. However, its theoretical aspect has remained mostly unexplored. In this paper, we propose the first finite-sample generalization bound for RAG in in-context linear regression and derive an exact bias-variance tradeoff. Our framework views the retrieved texts as query-dependent noisy in-context examples and recovers the classical in-context learning (ICL) and standard RAG as the limit cases. Our analysis suggests that an intrinsic ceiling on generalization error exists on RAG as opposed to the ICL. Furthermore, our framework is able to model retrieval both from the training data and from external corpora by introducing uniform and non-uniform RAG noise. In line with our theory, we show the sample efficiency of ICL and RAG empirically with experiments on common QA benchmarks, such as Natural Questions and TriviaQA.

arxiv情報

著者 Yang Guo,Yutian Tao,Yifei Ming,Robert D. Nowak,Yingyu Liang
発行日 2025-06-03 17:31:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, math.ST, stat.TH | Retrieval-Augmented Generation as Noisy In-Context Learning: A Unified Theory and Risk Bounds はコメントを受け付けていません

Inverse Reinforcement Learning with Switching Rewards and History Dependency for Characterizing Animal Behaviors

要約

神経科学における意思決定を研究する伝統的なアプローチは、動物が明確な報酬を得るために反復的で定型化された行動を行う、単純化された行動課題に焦点を当てている。このような方法は有益ではあるが、意思決定についての理解を、明確な目標によって駆動される短い時間スケールの行動に限定してしまう。自然環境では、動物はより複雑で長期的な行動をとるが、それはしばしば観察できない内発的な動機によるものである。時変逆強化学習(IRL)の最近の研究は、長期的で自由に動く行動における動機の移り変わりを捉えることを目的としている。しかし、動物は現在の状態だけでなく、その履歴に基づいて意思決定を行うという重要な課題が残されている。この課題を解決するために、我々はSWIRL(SWitching IRL)を導入する。SWIRLは、時間変化する履歴依存の報酬関数を組み込むことで、従来のIRLを拡張した新しいフレームワークである。SWIRLは長い行動系列を短期的な意思決定過程間の遷移としてモデル化し、それぞれが固有の報酬関数によって支配されます。SWIRLは生物学的に妥当な履歴依存性を組み込むことで、過去の意思決定や環境コンテクストがどのように行動を形成するかを捉え、動物の意思決定をより正確に記述します。SWIRLをシミュレーションと実世界の動物行動データセットに適用し、履歴依存性を欠くモデルよりも定量的にも定性的にも優れていることを示す。本研究は、動物の複雑で自然主義的な意思決定に関する理解を深めるために、履歴依存の方針と報酬を組み込んだ初めてのIRLモデルを提示する。

要約(オリジナル)

Traditional approaches to studying decision-making in neuroscience focus on simplified behavioral tasks where animals perform repetitive, stereotyped actions to receive explicit rewards. While informative, these methods constrain our understanding of decision-making to short timescale behaviors driven by explicit goals. In natural environments, animals exhibit more complex, long-term behaviors driven by intrinsic motivations that are often unobservable. Recent works in time-varying inverse reinforcement learning (IRL) aim to capture shifting motivations in long-term, freely moving behaviors. However, a crucial challenge remains: animals make decisions based on their history, not just their current state. To address this, we introduce SWIRL (SWitching IRL), a novel framework that extends traditional IRL by incorporating time-varying, history-dependent reward functions. SWIRL models long behavioral sequences as transitions between short-term decision-making processes, each governed by a unique reward function. SWIRL incorporates biologically plausible history dependency to capture how past decisions and environmental contexts shape behavior, offering a more accurate description of animal decision-making. We apply SWIRL to simulated and real-world animal behavior datasets and show that it outperforms models lacking history dependency, both quantitatively and qualitatively. This work presents the first IRL model to incorporate history-dependent policies and rewards to advance our understanding of complex, naturalistic decision-making in animals.

arxiv情報

著者 Jingyang Ke,Feiyang Wu,Jiyi Wang,Jeffrey Markowitz,Anqi Wu
発行日 2025-06-03 17:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Inverse Reinforcement Learning with Switching Rewards and History Dependency for Characterizing Animal Behaviors はコメントを受け付けていません

Designing Algorithmic Delegates: The Role of Indistinguishability in Human-AI Handoff

要約

AI技術の進歩に伴い、人々はAIエージェントに仕事を任せることを望むようになってきている。多くの場合、人間の意思決定者は、直面している意思決定問題の特定のインスタンスの特性に基づいて、AIエージェントに委任するかどうかを選択する。人間は通常、与えられた意思決定インスタンスについて、この選択に関連するすべての要素を完全に認識することができないため、区別できないインスタンス(観察可能な特徴が同じもの)を同じものとして扱うことで、一種の分類を行っている。本論文では、カテゴリの存在下で最適なアルゴリズム委任を設計する問題を定義する。これは、人間と協働するアルゴリズムの設計において重要な次元であり、我々は、最適な委任者が、最適な単独のアルゴリズムエージェントよりも任意に優れたチームメイトになり得ることを示す。この最適委任問題の解は自明ではない。我々は、この問題が基本的に組み合わせ論的であることを発見し、単純な設定であっても最適設計と意思決定タスクの特性の間に複雑な関係があることを示す。実際、最適な委任者を見つけることは一般に計算上困難であることを示す。しかしながら、最適な行動が人間とアルゴリズムによって観測された特徴の関数に分解される場合など、この問題のいくつかの広いケースにおいて、最適な委任者を生成するための効率的なアルゴリズムを見つけることができた。最後に、我々は、実際にユーザに採用されるときのために最適化されたアルゴリズミックなデリゲートを、時間をかけて更新する設計者をシミュレートする計算実験を行い、このプロセスは一般に最適なデリゲートを回復しないが、結果として得られるデリゲートはしばしば非常にうまく機能することを示す。

要約(オリジナル)

As AI technologies improve, people are increasingly willing to delegate tasks to AI agents. In many cases, the human decision-maker chooses whether to delegate to an AI agent based on properties of the specific instance of the decision-making problem they are facing. Since humans typically lack full awareness of all the factors relevant to this choice for a given decision-making instance, they perform a kind of categorization by treating indistinguishable instances — those that have the same observable features — as the same. In this paper, we define the problem of designing the optimal algorithmic delegate in the presence of categories. This is an important dimension in the design of algorithms to work with humans, since we show that the optimal delegate can be an arbitrarily better teammate than the optimal standalone algorithmic agent. The solution to this optimal delegation problem is not obvious: we discover that this problem is fundamentally combinatorial, and illustrate the complex relationship between the optimal design and the properties of the decision-making task even in simple settings. Indeed, we show that finding the optimal delegate is computationally hard in general. However, we are able to find efficient algorithms for producing the optimal delegate in several broad cases of the problem, including when the optimal action may be decomposed into functions of features observed by the human and the algorithm. Finally, we run computational experiments to simulate a designer updating an algorithmic delegate over time to be optimized for when it is actually adopted by users, and show that while this process does not recover the optimal delegate in general, the resulting delegate often performs quite well.

arxiv情報

著者 Sophie Greenwood,Karen Levy,Solon Barocas,Hoda Heidari,Jon Kleinberg
発行日 2025-06-03 17:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, cs.GT | Designing Algorithmic Delegates: The Role of Indistinguishability in Human-AI Handoff はコメントを受け付けていません

Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

要約

スカラー報酬のような数値フィードバックを用いた強化学習(RL)の最近の進歩は、大規模言語モデル(LLM)の複雑な推論能力を著しく向上させた。この成功にもかかわらず、我々は、数値フィードバックのみを用いたRLが遭遇する3つの主要な課題を特定する。そして、RLで調整されたモデルは、性能の停滞を示した後でも、批評という形の自然言語フィードバックを活用することで、失敗が続く問題に対して正しい改良を生成できることを実証する。この洞察に基づき、我々はCritique-GRPOを提案する。Critique-GRPOは、効果的な政策最適化のために自然言語と数値フィードバックの両方を統合するオンラインRLフレームワークである。Critique-GRPOは、LLMが探索を維持しながら、初期応答と批評に導かれた改良から同時に学習することを可能にする。Qwen2.5-7B-BaseとQwen3-8B-Baseを用いた広範な実験により、Critique-GRPOは、8つの難易度の高い数学、STEM、一般推論タスクにおいて、教師あり学習ベースやRLベースの微調整アプローチを一貫して凌駕し、平均pass@1スコアをそれぞれ約4.5%と5%向上させることが示された。特に、Critique-GRPOは、オンラインRLに専門家のデモンストレーションを組み込んだ強力なベースラインを上回っている。さらに分析を進めると、政策探索に関する2つの重要な洞察が明らかになった。(1)エントロピーが高くても、探索による効率的な学習が保証されるとは限らないこと、(2)回答が長くても、より効果的な探索につながるとは限らないこと。

要約(オリジナル)

Recent advances in reinforcement learning (RL) with numerical feedback, such as scalar rewards, have significantly enhanced the complex reasoning capabilities of large language models (LLMs). Despite this success, we identify three key challenges encountered by RL with solely numerical feedback: performance plateaus, limited effectiveness of self-reflection, and persistent failures. We then demonstrate that RL-finetuned models, even after exhibiting performance plateaus, can generate correct refinements on persistently failed problems by leveraging natural language feedback in the form of critiques. Building on this insight, we propose Critique-GRPO, an online RL framework that integrates both natural language and numerical feedback for effective policy optimization. Critique-GRPO enables LLMs to learn from initial responses and critique-guided refinements simultaneously while maintaining exploration. Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that Critique-GRPO consistently outperforms supervised learning-based and RL-based fine-tuning approaches across eight challenging mathematical, STEM, and general reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%, respectively. Notably, Critique-GRPO surpasses a strong baseline that incorporates expert demonstrations within online RL. Further analysis reveals two critical insights about policy exploration: (1) higher entropy does not always guarantee efficient learning from exploration, and (2) longer responses do not necessarily lead to more effective exploration.

arxiv情報

著者 Xiaoying Zhang,Hao Sun,Yipeng Zhang,Kaituo Feng,Chao Yang,Helen Meng
発行日 2025-06-03 17:39:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback はコメントを受け付けていません