Using Machine Learning for Lunar Mineralogy-I: Hyperspectral Imaging of Volcanic Samples

要約

この研究では、かんらん石と輝石に焦点を当てた月の材料に似た火山サンプルの鉱物組成を調べます。
400〜1000 nmのハイパースペクトルイメージングを使用して、イタリア北部のシチリア島北部のエオリア諸島の火山活動島であるバルカノからのサンプルのサンプルの反射率を分析するために、データキューブを作成し、それらを関心のある9つの地域に分類し、それぞれのスペクトルデータを分析しました。
スペクトルプロファイルを分類するために、K-mean、階層クラスタリング、GMM、スペクトルクラスタリングなど、さまざまな監視されていないクラスタリングアルゴリズムを適用しました。
主成分分析により、特定の鉱物に関連する明確なスペクトルシグネチャが明らかになり、正確な識別が促進されました。
クラスタリングパフォーマンスは地域ごとに異なり、K-meansは0.47の最高のシルエットスコアを達成しましたが、GMMはわずか0.25のスコアでパフォーマンスが低下しました。
非陰性マトリックス因数分解は、かんらん石と輝石のさまざまな方法と参照スペクトルのクラスター間の類似性を特定するのを助けました。
階層的クラスタリングは、最も信頼性の高い手法として浮上し、1つのサンプルでかんらん石スペクトルと94 \%の類似性を達成しましたが、GMMは顕著な変動性を示しました。
全体として、分析では、階層的方法とK平均法の両方が合計測定で低い誤差をもたらし、K-meansが推定分散とクラスタリングの優れた性能を示していることが示されました。
さらに、GMMは、他のモデルと比較して、より高い根平均平方根誤差を示しました。
RMSE分析では、K-meansがすべてのサンプルで最も一貫したアルゴリズムとして確認され、輝石と比較してバルカノ領域におけるかんらん石の優位性を示唆しています。
この優位性は、古代の溶岩流でかんらん石が豊富な組成が一般的である月の火山プロセスと同様の歴史的形成条件に関連している可能性があります。

要約(オリジナル)

This study examines the mineral composition of volcanic samples similar to lunar materials, focusing on olivine and pyroxene. Using hyperspectral imaging from 400 to 1000 nm, we created data cubes to analyze the reflectance characteristics of samples from samples from Vulcano, a volcanically active island in the Aeolian Archipelago, north of Sicily, Italy, categorizing them into nine regions of interest and analyzing spectral data for each. We applied various unsupervised clustering algorithms, including K-Means, Hierarchical Clustering, GMM, and Spectral Clustering, to classify the spectral profiles. Principal Component Analysis revealed distinct spectral signatures associated with specific minerals, facilitating precise identification. Clustering performance varied by region, with K-Means achieving the highest silhouette-score of 0.47, whereas GMM performed poorly with a score of only 0.25. Non-negative Matrix Factorization aided in identifying similarities among clusters across different methods and reference spectra for olivine and pyroxene. Hierarchical clustering emerged as the most reliable technique, achieving a 94\% similarity with the olivine spectrum in one sample, whereas GMM exhibited notable variability. Overall, the analysis indicated that both Hierarchical and K-Means methods yielded lower errors in total measurements, with K-Means demonstrating superior performance in estimated dispersion and clustering. Additionally, GMM showed a higher root mean square error compared to the other models. The RMSE analysis confirmed K-Means as the most consistent algorithm across all samples, suggesting a predominance of olivine in the Vulcano region relative to pyroxene. This predominance is likely linked to historical formation conditions similar to volcanic processes on the Moon, where olivine-rich compositions are common in ancient lava flows and impact melt rocks.

arxiv情報

著者 Fatemeh Fazel Hesar,Mojtaba Raouf,Peyman Soltani,Bernard Foing,Michiel J. A. de Dood,Fons J. Verbeek,Esther Cheng,Chenming Zhou
発行日 2025-03-28 17:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.EP, cs.LG | Using Machine Learning for Lunar Mineralogy-I: Hyperspectral Imaging of Volcanic Samples はコメントを受け付けていません

Sentiment Classification of Thai Central Bank Press Releases Using Supervised Learning

要約

中央銀行のコミュニケーションは、経済的期待と金融政策の有効性を形成する上で重要な役割を果たしています。
この研究では、監督された機械学習技術を適用して、タイ銀行からのプレスリリースの感情を分類し、主に語彙ベースのアプローチに焦点を当てた研究のギャップに対処します。
私の調査結果は、監視された学習は、データセットが小さい場合でも効果的な方法であり、さらなる自動化の出発点として機能することを示しています。
ただし、より高い精度とより良い一般化を達成するには、かなりの量のラベル付きデータが必要です。これは時間がかかり、専門知識を要求します。
Na \ ‘iveベイズ、ランダムフォレスト、SVMなどのモデルを使用して、この研究は、中央銀行のセンチメント分析のための機械学習の適用可能性を実証し、ケーススタディとしてタイ中央銀行の英語通信を使用しています。

要約(オリジナル)

Central bank communication plays a critical role in shaping economic expectations and monetary policy effectiveness. This study applies supervised machine learning techniques to classify the sentiment of press releases from the Bank of Thailand, addressing gaps in research that primarily focus on lexicon-based approaches. My findings show that supervised learning can be an effective method, even with smaller datasets, and serves as a starting point for further automation. However, achieving higher accuracy and better generalization requires a substantial amount of labeled data, which is time-consuming and demands expertise. Using models such as Na\’ive Bayes, Random Forest and SVM, this study demonstrates the applicability of machine learning for central bank sentiment analysis, with English-language communications from the Thai Central Bank as a case study.

arxiv情報

著者 Stefano Grassi
発行日 2025-03-28 17:20:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Sentiment Classification of Thai Central Bank Press Releases Using Supervised Learning はコメントを受け付けていません

Tropical Bisectors and Carlini-Wagner Attacks

要約

Pasque et al。
最後の層の活性化関数として熱帯対称メトリックを使用すると、Carlini-Wagner攻撃を含む最先端の攻撃に対する畳み込みニューラルネットワーク(CNNS)の堅牢性が向上することを示しました。
この改善は、攻撃が熱帯層の非分化性に特に適合していない場合に発生します。
さらに、彼らは、熱帯CNNの決定境界が熱帯二等分によって定義されることを示しました。
このホワイトペーパーでは、熱帯二等分線の組み合わせを調査し、熱帯埋め込み層がCarlini-Wagner攻撃に対する堅牢性をどのように高めるかを分析します。
熱帯CNNの決定境界が持つことができる線形セグメントの数の上限を証明します。
次に、熱帯建築に合わせて特別に調整されたCarlini-Wagner攻撃の洗練されたバージョンを提案します。
MNISTおよびLENET5を使用した計算実験では、攻撃により成功率が向上しました。

要約(オリジナル)

Pasque et al. showed that using a tropical symmetric metric as an activation function in the last layer can improve the robustness of convolutional neural networks (CNNs) against state-of-the-art attacks, including the Carlini-Wagner attack. This improvement occurs when the attacks are not specifically adapted to the non-differentiability of the tropical layer. Moreover, they showed that the decision boundary of a tropical CNN is defined by tropical bisectors. In this paper, we explore the combinatorics of tropical bisectors and analyze how the tropical embedding layer enhances robustness against Carlini-Wagner attacks. We prove an upper bound on the number of linear segments the decision boundary of a tropical CNN can have. We then propose a refined version of the Carlini-Wagner attack, specifically tailored for the tropical architecture. Computational experiments with MNIST and LeNet5 showcase our attacks improved success rate.

arxiv情報

著者 Gillian Grindstaff,Julia Lindberg,Daniela Schkoda,Miruna-Stefana Sorea,Ruriko Yoshida
発行日 2025-03-28 17:41:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 14T90, 52B12, 68T07, cs.LG, math.AG, math.CO, math.MG, math.OC | Tropical Bisectors and Carlini-Wagner Attacks はコメントを受け付けていません

Differential equation quantum solvers: engineering measurements to reduce cost

要約

量子コンピューターは、多様な技術的および科学的領域全体の基本的なタスクである非線形微分方程式(DES)を効率的に解くためのソリューションとして提案されています。
ただし、この点で重要なマイルストーンは、ハードウェア認識のプロトコルを設計し、利用可能な量子リソースを制限して効率的に使用することです。
ここでは、科学機械学習に由来する有望な変動方法に焦点を当てています:微分量子回路(DQC)、特に回路評価の数にコストに対処します。
量子回路の評価の数を減らすことは、ハイブリッド量子/古典的なプロトコルで特に価値があります。各サイクルでのインターフェイスと量子ハードウェアの実行に必要な時間は、比較的安価な古典的なポストプロセスのオーバーヘッドよりもはるかに多くの壁時間に影響を与える可能性があります。
ここでは、非線形DESを解くための2つのサンプル効率の高いプロトコルを提案してテストし、量子回路評価の指数関数的な節約を達成します。
これらのプロトコルは、ランダム化測定ツールボックス(つまり、古典的な影)と同様のエンジニアリングコストオペレーターを導入することにより、「メジャーファースト」アプローチでDQCからの情報の抽出を再設計することに基づいています。
1および2次元DESのベンチマークシミュレーションでは、回路評価の最大$ \ SIM $ 100のフォールド削減を報告します。
したがって、私たちのプロトコルは、既存の量子ハードウェアを使用して、より大きく、より挑戦的な非線形微分方程式デモのロックを解除するという約束を保持しています。

要約(オリジナル)

Quantum computers have been proposed as a solution for efficiently solving non-linear differential equations (DEs), a fundamental task across diverse technological and scientific domains. However, a crucial milestone in this regard is to design protocols that are hardware-aware, making efficient use of limited available quantum resources. We focus here on promising variational methods derived from scientific machine learning: differentiable quantum circuits (DQC), addressing specifically their cost in number of circuit evaluations. Reducing the number of quantum circuit evaluations is particularly valuable in hybrid quantum/classical protocols, where the time required to interface and run quantum hardware at each cycle can impact the total wall-time much more than relatively inexpensive classical post-processing overhead. Here, we propose and test two sample-efficient protocols for solving non-linear DEs, achieving exponential savings in quantum circuit evaluations. These protocols are based on redesigning the extraction of information from DQC in a “measure-first’ approach, by introducing engineered cost operators similar to the randomized-measurement toolbox (i.e. classical shadows). In benchmark simulations on one and two-dimensional DEs, we report up to $\sim$ 100 fold reductions in circuit evaluations. Our protocols thus hold the promise to unlock larger and more challenging non-linear differential equation demonstrations with existing quantum hardware.

arxiv情報

著者 Annie Paine,Casper Gyurik,Antonio Andrea Gentile
発行日 2025-03-28 17:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph | Differential equation quantum solvers: engineering measurements to reduce cost はコメントを受け付けていません

Personalized Privacy Amplification via Importance Sampling

要約

大規模なデータセットでのスケーラブルな機械学習の場合、代表的なサブセットをサブサンプリングすることは、効率的なモデルトレーニングの一般的なアプローチです。
これは多くの場合、重要なサンプリングを通じて達成されます。これにより、有益なデータポイントがより頻繁にサンプリングされます。
この論文では、個別のプライバシー分析に焦点を当てた重要性サンプリングのプライバシー特性を調べます。
重要性のサンプリングでは、プライバシーはユーティリティとよく整合しているが、サンプルサイズと対立していることがわかります。
この洞察に基づいて、サンプリング分布を構築するための2つのアプローチを提案します。1つはプライバシー効率のトレードオフを最適化します。
コアセットの形式でのユーティリティ保証に基づくもの。
差別的にプライベートな$ k $ -meansの問題に関するプライバシー、効率、および精度の観点から、経験的に両方のアプローチを評価します。
どちらのアプローチも同様の結果をもたらし、幅広いデータセットで一貫して均一なサンプリングを上回ることがわかります。
当社のコードは、github:https://github.com/smair/personalized-privacy-amplification-via-importance-samplingで入手できます

要約(オリジナル)

For scalable machine learning on large data sets, subsampling a representative subset is a common approach for efficient model training. This is often achieved through importance sampling, whereby informative data points are sampled more frequently. In this paper, we examine the privacy properties of importance sampling, focusing on an individualized privacy analysis. We find that, in importance sampling, privacy is well aligned with utility but at odds with sample size. Based on this insight, we propose two approaches for constructing sampling distributions: one that optimizes the privacy-efficiency trade-off; and one based on a utility guarantee in the form of coresets. We evaluate both approaches empirically in terms of privacy, efficiency, and accuracy on the differentially private $k$-means problem. We observe that both approaches yield similar outcomes and consistently outperform uniform sampling across a wide range of data sets. Our code is available on GitHub: https://github.com/smair/personalized-privacy-amplification-via-importance-sampling

arxiv情報

著者 Dominik Fay,Sebastian Mair,Jens Sjölund
発行日 2025-03-28 17:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML | Personalized Privacy Amplification via Importance Sampling はコメントを受け付けていません

Retrieval Backward Attention without Additional Training: Enhance Embeddings of Large Language Models via Repetition

要約

言語モデルは、テキストをユークリッド空間に埋め込む関数と見なすことができます。ここでは、埋め込みベクトルの品質がモデルのパフォーマンスを直接決定し、そのようなニューラルネットワークのトレーニングにはさまざまな不確実性が含まれます。
このペーパーでは、シンプルで簡単に実装可能な方法を介して、ゼロショット設定で事前に訓練された言語モデルのパフォーマンスを改善することに焦点を当てています。
コンテキスト情報エンコーディングを強化するための新しい後方注意メカニズムを提案します。
中国の大規模なテキスト埋め込みベンチマーク(C-MTEB)で評価されたこのアプローチは、複数のタスクにわたって大幅な改善を達成し、ゼロショット学習能力を進めるための貴重な洞察を提供します。

要約(オリジナル)

Language models can be viewed as functions that embed text into Euclidean space, where the quality of the embedding vectors directly determines model performance, training such neural networks involves various uncertainties. This paper focuses on improving the performance of pre-trained language models in zero-shot settings through a simple and easily implementable method. We propose a novel backward attention mechanism to enhance contextual information encoding. Evaluated on the Chinese Massive Text Embedding Benchmark (C-MTEB), our approach achieves significant improvements across multiple tasks, providing valuable insights for advancing zero-shot learning capabilities.

arxiv情報

著者 Yifei Duan,Raphael Shang,Deng Liang,Yongqiang Cai
発行日 2025-03-28 07:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Retrieval Backward Attention without Additional Training: Enhance Embeddings of Large Language Models via Repetition はコメントを受け付けていません

EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices

要約

トランスベースの大手言語モデル(LLMS)は、注意メカニズムの二次複雑さとキー価値(kV)キャッシュからのメモリ要求の増加により、エッジデバイスの長いシーケンスを処理する際に課題に遭遇します。
既存のKVキャッシュの最適化は、長年の出力タスクにおける不可逆的なトークンの立ち退きに苦労していますが、代替シーケンスモデリングアーキテクチャは、確立されたトランスインフラストラクチャ内で採用するのに費用がかかることが証明されています。
トレーニング可能なメモリゲーティングモジュールを介して、圧縮メモリを変圧器ベースのLLMに統合する無限コンテキストのメモリ効率の高いソリューションであるEdgeInfiniteを提示します。
このアプローチは、標準のトランスアーキテクチャとの完全な互換性を維持し、パラメーターのごく一部のみを微調整する必要があり、長いおよび短いコンテキストタスクルーティングのメモリゲーティングモジュールの選択的アクティブ化を可能にします。
実験結果は、EdgeInfiniteがメモリの消費と最初のトークンまでの時間を最適化しながら、長いコンテキストベンチマークでベースライン変圧器ベースのLLMに匹敵するパフォーマンスを達成することを示しています。

要約(オリジナル)

Transformer-based large language models (LLMs) encounter challenges in processing long sequences on edge devices due to the quadratic complexity of attention mechanisms and growing memory demands from Key-Value (KV) cache. Existing KV cache optimizations struggle with irreversible token eviction in long-output tasks, while alternative sequence modeling architectures prove costly to adopt within established Transformer infrastructure. We present EdgeInfinite, a memory-efficient solution for infinite contexts that integrates compressed memory into Transformer-based LLMs through a trainable memory-gating module. This approach maintains full compatibility with standard Transformer architectures, requiring fine-tuning only a small part of parameters, and enables selective activation of the memory-gating module for long and short context task routing. The experimental result shows that EdgeInfinite achieves comparable performance to baseline Transformer-based LLM on long context benchmarks while optimizing memory consumption and time to first token.

arxiv情報

著者 Jiyu Chen,Shuang Peng,Daxiong Luo,Fan Yang,Renshou Wu,Fangyuan Li,Xiaoxin Chen
発行日 2025-03-28 07:26:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices はコメントを受け付けていません

Learning to Instruct for Visual Instruction Tuning

要約

視覚指導のチューニング(VIT)の進歩であるLITを提案します。
VITはマルチモーダルLLMS(MLLMS)を有望なマルチモーダル機能に装備していますが、VITの現在の設計の選択により、過剰適合とショートカット学習、パフォーマンスの低下になります。
このギャップは、視覚情報の積極的な理解を無視しながら、指導に従う能力に関する過度の強調から生じます。
これに触発されたLITは、損失関数を命令シーケンスと応答シーケンスの両方に組み込むことにより、シンプルで効果的なアプローチを採用しています。
トレーニングデータをシームレスに展開し、MLLMSを言語プライアーに過度に依存して正規化します。
このメリットに基づいて、LITは包括的なマルチモーダルベンチマークで最大9%の大幅な相対的な改善を達成し、追加のトレーニングデータを必要とせず、無視できる計算オーバーヘッドが発生します。
驚くべきことに、LITは例外的な基本的な視覚能力を達成し、キャプションパフォーマンスの最大18%の改善をもたらし、同時にMLLMの幻覚を緩和します。

要約(オリジナル)

We propose LIT, an advancement of visual instruction tuning (VIT). While VIT equips Multimodal LLMs (MLLMs) with promising multimodal capabilities, the current design choices for VIT often result in overfitting and shortcut learning, potentially degrading performance. This gap arises from an overemphasis on instruction-following abilities, while neglecting the proactive understanding of visual information. Inspired by this, LIT adopts a simple yet effective approach by incorporating the loss function into both the instruction and response sequences. It seamlessly expands the training data, and regularizes the MLLMs from overly relying on language priors. Based on this merit, LIT achieves a significant relative improvement of up to 9% on comprehensive multimodal benchmarks, requiring no additional training data and incurring negligible computational overhead. Surprisingly, LIT attains exceptional fundamental visual capabilities, yielding up to an 18% improvement in captioning performance, while simultaneously alleviating hallucination in MLLMs.

arxiv情報

著者 Zhihan Zhou,Feng Hong,Jiaan Luo,Jiangchao Yao,Dongsheng Li,Bo Han,Ya Zhang,Yanfeng Wang
発行日 2025-03-28 08:04:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Learning to Instruct for Visual Instruction Tuning はコメントを受け付けていません

Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

要約

大規模な言語モデル(LLM)は強力な一般的な推論能力を示していますが、現実世界の金融アプリケーションにとって重要な財務上の推論における有効性は未定です。
この研究では、金融テキスト、表形式データ、方程式を含む4つの複雑な財務上の推論タスクにわたって、24の最先端の一般および推論に焦点を当てたLLMの包括的な評価を実施します。
数値的推論、表形式の解釈、財務用語の理解、長い文章の理解、方程式ベースの問題解決などの重要な機能を評価します。
私たちの分析により、データの品質と事前トレーニングはパフォーマンスに貢献しているが、チェーンオブテアの(COT)微調整などの一般的な手法は、金融タスクの限られた利益を提供することを明らかにしています。
これに対処するために、ドメイン固有の推論パスを使用してCOT微調整と補強学習で訓練された2つのドメイン適応モデル、FINO1-8BとFINO1-14Bを提案します。
私たちのモデルは、多様なソースからの高品質の例を統合する慎重にキュレーションされたデータセットでトレーニングされ、財務報告、表、方程式、構造化されたXBRLテキストをカバーしています。
限られたトレーニングデータにもかかわらず、彼らは7-9%のパフォーマンス改善を達成し、GPT-O1、GPT-O3-MINI、GPT-4.5を含むいくつかの高度なLLMを上回り、DeepSeekモデル(V3およびR1)に匹敵し、リソースの制約付きシナリオで強い実用的価値を示します。
私たちの調査結果は、財務上の推論におけるドメイン固有の適応の必要性を強調しており、将来の研究のためのすべてのデータセット、モデル、およびコードをリリースします。

要約(オリジナル)

While large language models (LLMs) have shown strong general reasoning capabilities, their effectiveness in financial reasoning, which is crucial for real-world financial applications remains underexplored. In this study, we conduct a comprehensive evaluation of 24 state-of-the-art general and reasoning-focused LLMs across four complex financial reasoning tasks involving financial text, tabular data, and equations. We assess key capabilities such as numerical reasoning, tabular interpretation, financial terminology comprehension, long-context understanding, and equation-based problem solving. Our analysis reveals that while data quality and pretraining contribute to performance, general techniques like chain-of-thought (CoT) fine-tuning offer limited gains in financial tasks. To address this, we propose two domain-adapted models, Fino1-8B and Fino1-14B, trained with CoT fine-tuning and reinforcement learning using domain-specific reasoning paths. Our models are trained on a carefully curated dataset integrating high-quality examples from diverse sources, covering financial reports, tables, equations, and structured XBRL texts. Despite limited training data, they achieve an 7-9% performance improvement, outperforming several advanced LLMs, including GPT-o1, GPT-o3-mini, GPT-4.5, and comparable with DeepSeek models (V3 and R1), demonstrating strong practical value in resource, constrained scenarios. Our findings highlight the need for domain-specific adaptations in financial reasoning, and we release all datasets, models, and code for future research.

arxiv情報

著者 Lingfei Qian,Weipeng Zhou,Yan Wang,Xueqing Peng,Han Yi,Jimin Huang,Qianqian Xie,Jianyun Nie
発行日 2025-03-28 08:33:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance はコメントを受け付けていません

Process Reward Modeling with Entropy-Driven Uncertainty

要約

このペーパーでは、エントロピー駆動型の統一プロセス報酬モデル(EDU-PRM)を紹介します。これは、トレーニングコストを大幅に削減しながら、プロセスの監督における最新のパフォーマンスに近い新しいフレームワークです。
EDU-PRMは、ロジット分布エントロピーを使用してトークン生成中の高逃走領域を動的に特定するエントロピー誘導動的ステップ分割メカニズムを導入します。
この自己評価機能により、手動で細めの注釈なしで正確なステップレベルのフィードバックが可能になり、プロセスの監督における重要な課題に対処します。
わずか7,500のEDU-PRMで生成されたトレーニングクエリのQWEN2.5-72Bモデルでの実験は、完全なQWEN2.5-72B-PRM(71.1%対71.6%)に密接に近似し、前の方法と比較してクエリコストを98%削減する精度を示しています。
この作業は、スケーラブルなプロセス報酬モデルトレーニングのための効率的なアプローチとしてEDU-PRMを確立します。

要約(オリジナル)

This paper presents the Entropy-Driven Unified Process Reward Model (EDU-PRM), a novel framework that approximates state-of-the-art performance in process supervision while drastically reducing training costs. EDU-PRM introduces an entropy-guided dynamic step partitioning mechanism, using logit distribution entropy to pinpoint high-uncertainty regions during token generation dynamically. This self-assessment capability enables precise step-level feedback without manual fine-grained annotation, addressing a critical challenge in process supervision. Experiments on the Qwen2.5-72B model with only 7,500 EDU-PRM-generated training queries demonstrate accuracy closely approximating the full Qwen2.5-72B-PRM (71.1% vs. 71.6%), achieving a 98% reduction in query cost compared to prior methods. This work establishes EDU-PRM as an efficient approach for scalable process reward model training.

arxiv情報

著者 Lang Cao,Renhong Chen,Yingtian Zou,Chao Peng,Wu Ning,Huacong Xu,Qian Chen,Yuxian Wang,Peishuo Su,Mofan Peng,Zijie Chen,Yitong Li
発行日 2025-03-28 08:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Process Reward Modeling with Entropy-Driven Uncertainty はコメントを受け付けていません