Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models

要約

テキストから画像の生成におけるオブジェクト数を正確に制御することは、依然として重要な課題です。
トレーニングデータがすべてのカウントバリエーションをカバーすることはめったにないため、監視された方法はしばしば失敗します。
除去プロセスを操作してオブジェクトを追加または削除する方法が役立ちます。
ただし、ラベル付きデータが必要であり、堅牢性と画質を制限し、遅い繰り返しプロセスに依存しています。
ソフトオブジェクト密度の合計に依存している事前に訓練された微分可能なカウントモデルが存在し、生成を操作することができますが、3つの主な課題があります。(i)クリーンな画像で事前に訓練されているため、騒々しい入力で動作する範囲の範囲では効果が低下します。
(ii)視点の変更に対して堅牢ではありません。
(iii)最適化は計算高価であり、画像ごとに繰り返されるモデル評価が必要です。
事前に訓練されたオブジェクトカウントテクニックとオブジェクト検出器を使用して、生成をガイドする新しいフレームワークを提案します。
まず、完全に生成された画像で計算された外側ループ損失を使用して、カウントトークンを最適化します。
第二に、検出モデルを介したバックプロパゲーションを必要とせずに、他の要因の中でも、視点と比例シフトによって引き起こされるエラーを修正する検出駆動型のスケーリング用語を導入します。
第三に、最適化されたパラメーターを新しいプロンプトのために再利用できることを示し、繰り返し最適化の必要性を削除します。
私たちの方法は、トークンの再利用、さまざまな検出器との互換性による柔軟性、および多様なオブジェクトカテゴリ全体のカウントが改善された精度を介した効率を提供します。

要約(オリジナル)

Accurately controlling object count in text-to-image generation remains a key challenge. Supervised methods often fail, as training data rarely covers all count variations. Methods that manipulate the denoising process to add or remove objects can help; however, they still require labeled data, limit robustness and image quality, and rely on a slow, iterative process. Pre-trained differentiable counting models that rely on soft object density summation exist and could steer generation, but employing them presents three main challenges: (i) they are pre-trained on clean images, making them less effective during denoising steps that operate on noisy inputs; (ii) they are not robust to viewpoint changes; and (iii) optimization is computationally expensive, requiring repeated model evaluations per image. We propose a new framework that uses pre-trained object counting techniques and object detectors to guide generation. First, we optimize a counting token using an outer-loop loss computed on fully generated images. Second, we introduce a detection-driven scaling term that corrects errors caused by viewpoint and proportion shifts, among other factors, without requiring backpropagation through the detection model. Third, we show that the optimized parameters can be reused for new prompts, removing the need for repeated optimization. Our method provides efficiency through token reuse, flexibility via compatibility with various detectors, and accuracy with improved counting across diverse object categories.

arxiv情報

著者 Oz Zafar,Yuval Cohen,Lior Wolf,Idan Schwartz
発行日 2025-06-05 15:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントする

Goal-Oriented Time-Series Forecasting: Foundation Framework Design

要約

従来の時系列予測は、多くの場合、予測エラーの最小化にのみ焦点を当てており、それらを採用する実際のアプリケーションの特定の要件を無視します。
このペーパーでは、新しいトレーニング方法論を紹介します。これにより、予測モデルは、最終アプリケーションで指定された予測範囲の重要性に基づいて、焦点を動的に調整できます。
これらの範囲を事前に修正する以前の方法とは異なり、トレーニングアプローチは、信号範囲全体にわたる予測をより小さなセグメントに分解し、その後、動的に重み付けされて組み合わせて、関心のある領域内で正確な予測を生成します。
新しいワイヤレス通信データセットを含む標準のデータセットでメソッドをテストしましたが、予測の精度を向上させるだけでなく、予測モデルを使用したエンドアプリケーションのパフォーマンスも向上することがわかりました。
この研究は、さまざまな実用的なアプリケーションで予測と意思決定をよりよく接続する予測システムを作成するための基礎を提供します。

要約(オリジナル)

Traditional time-series forecasting often focuses only on minimizing prediction errors, ignoring the specific requirements of real-world applications that employ them. This paper presents a new training methodology, which allows a forecasting model to dynamically adjust its focus based on the importance of forecast ranges specified by the end application. Unlike previous methods that fix these ranges beforehand, our training approach breaks down predictions over the entire signal range into smaller segments, which are then dynamically weighted and combined to produce accurate forecasts within a region of interest. We tested our method on standard datasets, including a new wireless communication dataset, and found that not only it improves prediction accuracy but also enhances the performance of end application employing the forecasting model. This research provides a basis for creating forecasting systems that better connect prediction and decision-making in various practical applications.

arxiv情報

著者 Luca-Andrei Fechete,Mohamed Sana,Fadhel Ayed,Nicola Piovesan,Wenjie Li,Antonio De Domenico,Tareq Si Salem
発行日 2025-06-05 15:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Knowledgeable-r1: Policy Optimization for Knowledge Exploration in Retrieval-Augmented Generation

要約

検索された生成(RAG)は、知識集約型タスクのパフォーマンスを改善するための主流の方法です。
ただし、現在のRAGシステムは、取得されたコンテキストに重点を置きすぎることがよくあります。
これは、特に誤解を招くまたは過度の情報に対処する場合、不正確な情報源への依存につながり、モデルの固有の知識を見落とす可能性があります。
この不均衡を解決するために、共同サンプリングを使用して知識能力探索におけるマルチポリシー分布を定義して、パラメトリックおよびコンテキストナレッジの大規模な言語モデルの自己統合された利用を刺激することを提案します。
実験は、知識豊富なR1がパラメーターとコンテキスト競合タスクと一般的なラグタスクの両方で堅牢性と推論の精度を大幅に向上させることを示しています。
私たちのコードは、https://github.com/lcy80366872/ nowledgable-r1で入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) is a mainstream method for improving performance on knowledge-intensive tasks. However,current RAG systems often place too much emphasis on retrieved contexts. This can lead to reliance on inaccurate sources and overlook the model’s inherent knowledge, especially when dealing with misleading or excessive information. To resolve this imbalance, we propose Knowledgeable-r1 that using joint sampling and define multi policy distributions in knowledge capability exploration to stimulate large language models’self-integrated utilization of parametric and contextual knowledge. Experiments show that Knowledgeable-r1 significantly enhances robustness and reasoning accuracy in both parameters and contextual conflict tasks and general RAG tasks, especially outperforming baselines by 17.07% in counterfactual scenarios and demonstrating consistent gains across RAG tasks. Our code are available at https://github.com/lcy80366872/ knowledgeable-r1.

arxiv情報

著者 Chenyu Lin,Yilin Wen,Du Su,Fei Sun,Muhan Chen,Chenfu Bao,Zhonghou Lv
発行日 2025-06-05 15:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | コメントする

Explainability in Practice: A Survey of Explainable NLP Across Various Domains

要約

自然言語処理(NLP)は、ヘルスケア、財務、顧客関係管理など、多くの重要な分野で基礎となっています。
これは、意思決定プロセスで広く使用されているGPTベースのアーキテクチャやBERTなどの高度なモデルの開発と使用に特に当てはまります。
ただし、これらの高度なNLPモデルのブラックボックスの性質は、透明性と説明可能性に対する緊急の必要性を生み出しました。
このレビューでは、実用的な展開と現実世界のアプリケーションに焦点を当てた説明可能なNLP(XNLP)を調査し、その実装とドメイン固有のコンテキストで直面する課題を調べます。
この論文は、NLPにおける説明可能性の重要性を強調し、ヘルスケアの明確な洞察の必要性から詐欺の検出とリスク評価に対する強調まで、XNLPをさまざまなセクターのユニークな要求をどのように満たすかについて包括的な視点を提供します。
さらに、このレビューは、ドメイン固有の探索を提供し、モデル評価における現実世界の適用性、メトリック評価、人間の相互作用の役割などの過小評価された領域を議論することにより、XNLP文献の知識ギャップを埋めることを目的としています。
この論文は、XNLPの理解とより広い応用を強化できる将来の研究の方向性を提案することで締めくくります。

要約(オリジナル)

Natural Language Processing (NLP) has become a cornerstone in many critical sectors, including healthcare, finance, and customer relationship management. This is especially true with the development and use of advanced models such as GPT-based architectures and BERT, which are widely used in decision-making processes. However, the black-box nature of these advanced NLP models has created an urgent need for transparency and explainability. This review explores explainable NLP (XNLP) with a focus on its practical deployment and real-world applications, examining its implementation and the challenges faced in domain-specific contexts. The paper underscores the importance of explainability in NLP and provides a comprehensive perspective on how XNLP can be designed to meet the unique demands of various sectors, from healthcare’s need for clear insights to finance’s emphasis on fraud detection and risk assessment. Additionally, this review aims to bridge the knowledge gap in XNLP literature by offering a domain-specific exploration and discussing underrepresented areas such as real-world applicability, metric evaluation, and the role of human interaction in model assessment. The paper concludes by suggesting future research directions that could enhance the understanding and broader application of XNLP.

arxiv情報

著者 Hadi Mohammadi,Ayoub Bagheri,Anastasia Giachanou,Daniel L. Oberski
発行日 2025-06-05 15:41:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective

要約

大規模な言語モデル(LLM)は、多くの場合、訓練されているデータの結果として、社会的、人口統計学的、性別バイアスを示すことが知られています。
この作業では、GPT-2やLlama2などのモデル内で、そのようなバイアスがどのように構造的に表現されるかを分析するために、機械的解釈可能性アプローチを採用します。
人口統計学的および性別のバイアスに焦点を当て、さまざまな指標を探り、偏った動作の原因となる内部エッジを特定します。
次に、データセットと言語のバリエーション全体のこれらのコンポーネントの安定性、ローカリゼーション、および一般化可能性を評価します。
体系的なアブレーションを通じて、バイアス関連の計算は高度に局所化されており、多くの場合、層の小さなサブセットに集中していることを実証します。
さらに、特定されたコンポーネントは、バイアスとは関係のないものを含む微調整設定全体で変化します。
最後に、これらのコンポーネントを削除すると、偏った出力が減少するだけでなく、これらのタスクと重要なコンポーネントを共有するために、名前付きエンティティ認識や言語の受け入れ可能性判断など、他のNLPタスクにも影響することが示されます。

要約(オリジナル)

Large Language Models (LLMs) are known to exhibit social, demographic, and gender biases, often as a consequence of the data on which they are trained. In this work, we adopt a mechanistic interpretability approach to analyze how such biases are structurally represented within models such as GPT-2 and Llama2. Focusing on demographic and gender biases, we explore different metrics to identify the internal edges responsible for biased behavior. We then assess the stability, localization, and generalizability of these components across dataset and linguistic variations. Through systematic ablations, we demonstrate that bias-related computations are highly localized, often concentrated in a small subset of layers. Moreover, the identified components change across fine-tuning settings, including those unrelated to bias. Finally, we show that removing these components not only reduces biased outputs but also affects other NLP tasks, such as named entity recognition and linguistic acceptability judgment because of the sharing of important components with these tasks.

arxiv情報

著者 Bhavik Chandna,Zubair Bashir,Procheta Sen
発行日 2025-06-05 15:43:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

ECoRAG: Evidentiality-guided Compression for Long Context RAG

要約

大規模な言語モデル(LLMS)は、検索された生成(RAG)を通じて外部ドキュメントを活用することにより、オープンドメイン質問応答(ODQA)の顕著なパフォーマンスを示しています。
より長いコンテキストから、ぼろきれのオーバーヘッドを減らすには、コンテキスト圧縮が必要です。
ただし、以前の圧縮方法では、LLMベースのRAGのパフォーマンスを制限する非自明情報の除外に焦点を当てていません。
したがって、私たちは、証拠誘導ぼろきれ、または\ textBf {ecorag}フレームワークを提案します。
Ecoragは、証拠に基づいて検索されたドキュメントを圧縮し、回答生成が正しい証拠によってサポートされているかどうかを確認することにより、LLMのパフォーマンスを向上させます。
追加のステップとして、Ecoragは圧縮コンテンツが十分な証拠を提供するかどうかを反映しており、そうでない場合は、十分になるまでさらに検索します。
実験は、EcoragがODQAタスクのLLMパフォーマンスを改善し、既存の圧縮方法を上回ることを示しています。
さらに、ecoragは潜時を減らすだけでなく、正しい答えを生成するために必要な情報のみを保持することでトークンの使用を最小限に抑えるため、非常に費用対効率が高くなります。
コードはhttps://github.com/ldilab/ecoragで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable performance in Open-Domain Question Answering (ODQA) by leveraging external documents through Retrieval-Augmented Generation (RAG). To reduce RAG overhead, from longer context, context compression is necessary. However, prior compression methods do not focus on filtering out non-evidential information, which limit the performance in LLM-based RAG. We thus propose Evidentiality-guided RAG, or \textbf{ECoRAG} framework. ECoRAG improves LLM performance by compressing retrieved documents based on evidentiality, ensuring whether answer generation is supported by the correct evidence. As an additional step, ECoRAG reflects whether the compressed content provides sufficient evidence, and if not, retrieves more until sufficient. Experiments show that ECoRAG improves LLM performance on ODQA tasks, outperforming existing compression methods. Furthermore, ECoRAG is highly cost-efficient, as it not only reduces latency but also minimizes token usage by retaining only the necessary information to generate the correct answer. Code is available at https://github.com/ldilab/ECoRAG.

arxiv情報

著者 Yeonseok Jeong,Jinsu Kim,Dohyeon Lee,Seung-won Hwang
発行日 2025-06-05 15:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | コメントする

SNaRe: Domain-aware Data Generation for Low-Resource Event Detection

要約

イベント検出(ED) – 自然言語テキストからイベントの言及を特定するタスクは、生物医学、法律、疫学などの高度に専門化されたドメインで推論を可能にするために重要です。
データ生成は、高価な専門家の注釈を必要とせずに、その有用性をより広いアプリケーションに拡大するのに効果的であることが証明されています。
ただし、既存の生成アプローチが特殊なドメインに適用されると、発生した文とターゲットドメインの間の分布の不一致を特徴とする、注釈が正しくないラベルノイズとドメインドリフトに苦労します。
これらの問題に対処するために、スカウト、ナレーター、リファイナーの3つのコンポーネントで構成されるドメイン認識の合成データ生成フレームワークであるSNAREを紹介します。
スカウト抽出物は、標的ドメインデータからトリガーをトリガーし、コーパスレベルの統計を使用して高品質のドメイン固有のトリガーリストをキュレートしてドメインドリフトを緩和します。
これらのトリガーに条件付けられたナレーターは、高品質のドメインに合わせた文を生成し、リファイナーは追加のイベントの言及を識別し、高い注釈の品質を確保します。
3つの多様なドメインEDデータセットでの実験により、SNAREが最良のベースラインよりも優れている方法が明らかになり、ゼロショット/少ないショット設定で平均F1ゲインが3〜7%、多言語生成の4-20%F1の改善が得られます。
生成されたトリガーヒット率と人間の評価を分析すると、Snareのより強い注釈の質とドメインドリフトの削減が実証されます。

要約(オリジナル)

Event Detection (ED) — the task of identifying event mentions from natural language text — is critical for enabling reasoning in highly specialized domains such as biomedicine, law, and epidemiology. Data generation has proven to be effective in broadening its utility to wider applications without requiring expensive expert annotations. However, when existing generation approaches are applied to specialized domains, they struggle with label noise, where annotations are incorrect, and domain drift, characterized by a distributional mismatch between generated sentences and the target domain. To address these issues, we introduce SNaRe, a domain-aware synthetic data generation framework composed of three components: Scout, Narrator, and Refiner. Scout extracts triggers from unlabeled target domain data and curates a high-quality domain-specific trigger list using corpus-level statistics to mitigate domain drift. Narrator, conditioned on these triggers, generates high-quality domain-aligned sentences, and Refiner identifies additional event mentions, ensuring high annotation quality. Experimentation on three diverse domain ED datasets reveals how SNaRe outperforms the best baseline, achieving average F1 gains of 3-7% in the zero-shot/few-shot settings and 4-20% F1 improvement for multilingual generation. Analyzing the generated trigger hit rate and human evaluation substantiates SNaRe’s stronger annotation quality and reduced domain drift.

arxiv情報

著者 Tanmay Parekh,Yuxuan Dong,Lucas Bandarkar,Artin Kim,I-Hung Hsu,Kai-Wei Chang,Nanyun Peng
発行日 2025-06-05 15:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Can Large Language Models Understand Intermediate Representations in Compilers?

要約

中間表現(IRS)は、コンパイラの設計とプログラム分析に重要な役割を果たしますが、大規模な言語モデル(LLM)による理解は依存していないままです。
この論文では、IRSの理解において、6つの最先端のLLMS:GPT-4、GPT-3、DEEPSEEK、GEMMA 2、LLAMA 3、およびCODE LLAMAの能力を評価する探索的経験的研究を紹介します。
具体的には、コントロールフローグラフの再構築、逆コンパイル、コード要約、および実行推論の4つのコアタスクでモデルのパフォーマンスを評価します。
LLMは、IR構文を解析し、高レベルの構造を特定する能力を示しますが、特に制御フローの推論、ループ処理、動的実行において、指導レベルの推論と一貫して苦労しています。
一般的な障害モードには、分岐命令の誤解、重要な操作の省略、および正確な指導レベルのロジックではなく、ヒューリスティックな推論に依存することが含まれます。
私たちの調査結果は、LLM設計におけるIR固有の強化の必要性を強調しています。
構造化されたIRデータセットの微調整と、モデルの有効性を改善するために、コントロールフロー感受性アーキテクチャを統合することをお勧めします。
すべての実験データとソースコードは公開されています

要約(オリジナル)

Intermediate Representations (IRs) play a critical role in compiler design and program analysis, yet their comprehension by Large Language Models (LLMs) remains underexplored. In this paper, we present an explorative empirical study evaluating the capabilities of six state-of-the-art LLMs: GPT-4, GPT-3, DeepSeek, Gemma 2, Llama 3, and Code Llama, in understanding IRs. Specifically, we assess model performance across four core tasks: control flow graph reconstruction, decompilation, code summarization, and execution reasoning. While LLMs exhibit competence in parsing IR syntax and identifying high-level structures, they consistently struggle with instruction-level reasoning, especially in control flow reasoning, loop handling, and dynamic execution. Common failure modes include misinterpreting branching instructions, omitting critical operations, and relying on heuristic reasoning rather than precise instruction-level logic. Our findings highlight the need for IR-specific enhancements in LLM design. We recommend fine-tuning on structured IR datasets and integrating control-flow-sensitive architectures to improve model effectiveness. All experimental data and source code are publicly available at

arxiv情報

著者 Hailong Jiang,Jianfeng Zhu,Yao Wan,Bo Fang,Hongyu Zhang,Ruoming Jin,Qiang Guan
発行日 2025-06-05 15:48:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Biased AI can Influence Political Decision-Making

要約

現代の大規模な言語モデル(LLM)が日常のタスクに不可欠になるにつれて、それらの固有のバイアスに関する懸念と、人間の意思決定への潜在的な影響が現れています。
モデルのバイアスは十分に文書化されていますが、これらのバイアスが人間の決定にどのように影響するかについてはあまり知られていません。
この論文では、LLMSにおける党派的なバイアスが政治的意見と意思決定に及ぼす影響を調査する2つのインタラクティブな実験を提示します。
参加者は、これらのタスクを完了しながら、偏ったリベラル、偏った保守的、または公平な制御モデルのいずれかと自由にやり取りしました。
党派の偏ったモデルにさらされた参加者は、意見を採用し、LLMのバイアスに合った決定を下す可能性が非常に高いことがわかりました。
さらに驚くべきことに、この影響は、参加者のモデルバイアスと個人的な政治的党派性が反対だったときに見られました。
しかし、AIの事前知識は、バイアスの影響の減少と弱く相関していることを発見し、バイアス効果の堅牢な緩和のためのAI教育の重要性の可能性を強調しました。
私たちの調査結果は、偏ったLLMと相互作用することの重要な影響と、公共の言説や政治的行動に影響を与える能力を強調するだけでなく、将来のこれらのリスクを緩和するための潜在的な技術を強調しています。

要約(オリジナル)

As modern large language models (LLMs) become integral to everyday tasks, concerns about their inherent biases and their potential impact on human decision-making have emerged. While bias in models are well-documented, less is known about how these biases influence human decisions. This paper presents two interactive experiments investigating the effects of partisan bias in LLMs on political opinions and decision-making. Participants interacted freely with either a biased liberal, biased conservative, or unbiased control model while completing these tasks. We found that participants exposed to partisan biased models were significantly more likely to adopt opinions and make decisions which matched the LLM’s bias. Even more surprising, this influence was seen when the model bias and personal political partisanship of the participant were opposite. However, we also discovered that prior knowledge of AI was weakly correlated with a reduction of the impact of the bias, highlighting the possible importance of AI education for robust mitigation of bias effects. Our findings not only highlight the critical effects of interacting with biased LLMs and its ability to impact public discourse and political conduct, but also highlights potential techniques for mitigating these risks in the future.

arxiv情報

著者 Jillian Fisher,Shangbin Feng,Robert Aron,Thomas Richardson,Yejin Choi,Daniel W. Fisher,Jennifer Pan,Yulia Tsvetkov,Katharina Reinecke
発行日 2025-06-05 15:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | コメントする

TreeRPO: Tree Relative Policy Optimization

要約

大規模な言語モデル(LLM)は、検証可能な報酬(RLVR)方法による強化学習を通じて、顕著な推論能力を示しています。
ただし、既存のアプローチの重要な制限は、完全な軌道レベルで定義された報酬が、推論プロセスの中間ステップを最適化するための不十分なガイダンスを提供することです。
これに対処するために、ツリーサンプリングを使用したさまざまな推論ステップでの報酬の数学的期待を推定する新しい方法である\ textBf {\ name}を紹介します。
別のステップ報酬モデルに依存する以前の方法とは異なり、\ nameはこのサンプリングプロセスを通じてこれらの報酬を直接推定します。
GRPOのグループ相関報酬トレーニングメカニズムに基づいて、\ Nameは、ツリーサンプリング中に生成されたステップレベルグループに基づいて革新的に報酬を計算します。
この進歩により、\名はきめ細かい報酬信号を生成することができ、LLMの学習プロセスと全体的なパフォーマンスを大幅に向上させることができます。
実験結果は、\ Nameアルゴリズムがテストベンチマーク上のQWEN-2.5-MATHの平均パス@1精度を大幅に改善し、19.0 \%から35.5 \%に増加することを示しています。
さらに、\名はパフォーマンスでGRPOを2.9%上回ると同時に平均応答長を18.1 \%削減し、その有効性と効率を紹介します。
私たちのコードは、\ href {https://github.com/yangzhch6/treeerpo} {https://github.com/yangzhch6/treerpo}で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable reasoning capabilities through Reinforcement Learning with Verifiable Rewards (RLVR) methods. However, a key limitation of existing approaches is that rewards defined at the full trajectory level provide insufficient guidance for optimizing the intermediate steps of a reasoning process. To address this, we introduce \textbf{\name}, a novel method that estimates the mathematical expectations of rewards at various reasoning steps using tree sampling. Unlike prior methods that rely on a separate step reward model, \name directly estimates these rewards through this sampling process. Building on the group-relative reward training mechanism of GRPO, \name innovatively computes rewards based on step-level groups generated during tree sampling. This advancement allows \name to produce fine-grained and dense reward signals, significantly enhancing the learning process and overall performance of LLMs. Experimental results demonstrate that our \name algorithm substantially improves the average Pass@1 accuracy of Qwen-2.5-Math on test benchmarks, increasing it from 19.0\% to 35.5\%. Furthermore, \name significantly outperforms GRPO by 2.9\% in performance while simultaneously reducing the average response length by 18.1\%, showcasing its effectiveness and efficiency. Our code will be available at \href{https://github.com/yangzhch6/TreeRPO}{https://github.com/yangzhch6/TreeRPO}.

arxiv情報

著者 Zhicheng Yang,Zhijiang Guo,Yinya Huang,Xiaodan Liang,Yiwei Wang,Jing Tang
発行日 2025-06-05 15:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする