On feature selection in double-imbalanced data settings: a Random Forest approach

要約

特徴の選択は、特に二重の不均衡の困難な条件、つまり、応答変数のクラスの不均衡とデータ$(n \ gg P)$の寸法非対称性の両方を特徴とする設定の下で、高次元分類タスクの重要なステップです。
このようなシナリオでは、ランダムフォレスト(RF)に適用される従来の機能選択方法が不安定または誤解を招く重要性のランキングを得ることがよくあります。
このペーパーでは、最小限の深さに基づいて機能選択のための新しいしきい値スキームを提案します。これは、ツリートポロジを悪用して可変関連性を評価することです。
シミュレートされた現実世界のデータセットに関する広範な実験は、提案されたアプローチが、従来の最小深度ベースの選択と比較して、変数のより標準的で正確なサブセットを生成することを示しています。
この方法は、二重の不均衡条件下でRFで可変選択のための実用的で解釈可能なソリューションを提供します。

要約(オリジナル)

Feature selection is a critical step in high-dimensional classification tasks, particularly under challenging conditions of double imbalance, namely settings characterized by both class imbalance in the response variable and dimensional asymmetry in the data $(n \gg p)$. In such scenarios, traditional feature selection methods applied to Random Forests (RF) often yield unstable or misleading importance rankings. This paper proposes a novel thresholding scheme for feature selection based on minimal depth, which exploits the tree topology to assess variable relevance. Extensive experiments on simulated and real-world datasets demonstrate that the proposed approach produces more parsimonious and accurate subsets of variables compared to conventional minimal depth-based selection. The method provides a practical and interpretable solution for variable selection in RF under double imbalance conditions.

arxiv情報

著者 Fabio Demaria
発行日 2025-06-12 17:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62-08, cs.LG, stat.ME | On feature selection in double-imbalanced data settings: a Random Forest approach はコメントを受け付けていません

Developing a High-performance Framework for Speech Emotion Recognition in Naturalistic Conditions Challenge for Emotional Attribute Prediction

要約

自然主義的条件における音声感情認識(SER)は、音声処理コミュニティにとって重要な課題です。
課題には、アノテーター間のラベル付けと不均衡なデータ分布の不一致が含まれます。
このペーパーでは、自然主義的条件の課題(IS25-SERチャレンジ)における感情認識で優れた(トップ1)パフォーマンスを達成する再現性のあるフレームワークを紹介します。これは、MSPポッドキャストデータセットで評価されています。
私たちのシステムは、マルチモーダル学習、マルチタスク学習、不均衡なデータ処理を通じて、前述の課題に取り組むように設計されています。
具体的には、私たちの最良のシステムは、テキストの埋め込みを追加し、性別を予測し、トレーニングセットに「その他」(o)および「 ‘no artion」(x)サンプルを含めることでトレーニングされます。
私たちのシステムの結果は、IS25-SERチャレンジで1位と2位の両方を確保し、シンプルな2つのシステムアンサンブルによってトップパフォーマンスが達成されました。

要約(オリジナル)

Speech emotion recognition (SER) in naturalistic conditions presents a significant challenge for the speech processing community. Challenges include disagreement in labeling among annotators and imbalanced data distributions. This paper presents a reproducible framework that achieves superior (top 1) performance in the Emotion Recognition in Naturalistic Conditions Challenge (IS25-SER Challenge) – Task 2, evaluated on the MSP-Podcast dataset. Our system is designed to tackle the aforementioned challenges through multimodal learning, multi-task learning, and imbalanced data handling. Specifically, our best system is trained by adding text embeddings, predicting gender, and including “Other” (O) and “No Agreement” (X) samples in the training set. Our system’s results secured both first and second places in the IS25-SER Challenge, and the top performance was achieved by a simple two-system ensemble.

arxiv情報

著者 Thanathai Lertpetchpun,Tiantian Feng,Dani Byrd,Shrikanth Narayanan
発行日 2025-06-12 17:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Developing a High-performance Framework for Speech Emotion Recognition in Naturalistic Conditions Challenge for Emotional Attribute Prediction はコメントを受け付けていません

Self-Adapting Language Models

要約

大規模な言語モデル(LLM)は強力ですが静的です。
それらは、新しいタスク、知識、または例に応じて体重を適応させるメカニズムを欠いています。
自己適用LLMS(SEAL)を導入します。これは、独自の微調整データと更新ディレクティブを生成することにより、LLMが自己適応できるようにするフレームワークです。
新しい入力を考えると、モデルは、さまざまな方法で情報を再構築したり、最適化ハイパーパラメーターを指定したり、データの増強と勾配ベースの更新のツールを呼び出したりする可能性のある自己編集の世代を生成します。
監視されたFinetuning(SFT)を通じて、これらの自己編集は永続的な重量の更新をもたらし、永続的な適応を可能にします。
モデルをトレーニングして効果的な自己編集を生成するために、更新されたモデルのダウンストリームパフォーマンスを報酬信号として補強学習ループを使用します。
個別の適応モジュールや補助ネットワークに依存する以前のアプローチとは異なり、SEALはモデル自身の生成を直接使用して適応プロセスを制御します。
知識の取り込みと少数のショットの一般化に関する実験は、シールが自主的な適応が可能な言語モデルに向けた有望なステップであることを示しています。
当社のウェブサイトとコードは、https://jyopari.github.io/posts/sealで入手できます。

要約(オリジナル)

Large language models (LLMs) are powerful but static; they lack mechanisms to adapt their weights in response to new tasks, knowledge, or examples. We introduce Self-Adapting LLMs (SEAL), a framework that enables LLMs to self-adapt by generating their own finetuning data and update directives. Given a new input, the model produces a self-edit-a generation that may restructure the information in different ways, specify optimization hyperparameters, or invoke tools for data augmentation and gradient-based updates. Through supervised finetuning (SFT), these self-edits result in persistent weight updates, enabling lasting adaptation. To train the model to produce effective self-edits, we use a reinforcement learning loop with the downstream performance of the updated model as the reward signal. Unlike prior approaches that rely on separate adaptation modules or auxiliary networks, SEAL directly uses the model’s own generation to control its adaptation process. Experiments on knowledge incorporation and few-shot generalization show that SEAL is a promising step toward language models capable of self-directed adaptation. Our website and code is available at https://jyopari.github.io/posts/seal.

arxiv情報

著者 Adam Zweiger,Jyothish Pari,Han Guo,Ekin Akyürek,Yoon Kim,Pulkit Agrawal
発行日 2025-06-12 17:48:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Self-Adapting Language Models はコメントを受け付けていません

TimberStrike: Dataset Reconstruction Attack Revealing Privacy Leakage in Federated Tree-Based Systems

要約

連合学習は、一元化された機械学習のプライバシー指向の代替品として浮上し、直接データ共有なしで共同モデルトレーニングを可能にします。
ニューラルネットワークのために広範囲に研究されていますが、ツリーベースのモデルのセキュリティとプライバシーへの影響は未定です。
この作業では、水平方向にフェデレーションされた樹木ベースのモデルをターゲットにした最適化ベースのデータセット再構成攻撃であるTimberStrikeを紹介します。
単一のクライアントが実施する攻撃は、分割値と決定パスを使用して他のクライアントから機密性の高いトレーニングデータを推測することにより、決定ツリーの個別の性質を活用します。
Flower、NVFlare、Fedtreeを含む複数のフレームワークにわたる最先端のフェデレーショングラデーションブーストの実装でTemberStrikeを評価し、プライバシー違反に対する脆弱性を実証します。
公開されているストローク予測データセットでは、ティンバーストライクは、すべての実装でターゲットデータセットの73.05%から95.63%の間で一貫して再構築されます。
さらに、差別的なプライバシーを分析し、攻撃を部分的に軽減しますが、モデルのパフォーマンスも大幅に低下することを示しています。
私たちの調査結果は、樹木ベースの連合学習システム向けに特別に設計されたプライバシーを提供するメカニズムの必要性を強調しており、それらの設計に関する予備的な洞察を提供します。

要約(オリジナル)

Federated Learning has emerged as a privacy-oriented alternative to centralized Machine Learning, enabling collaborative model training without direct data sharing. While extensively studied for neural networks, the security and privacy implications of tree-based models remain underexplored. This work introduces TimberStrike, an optimization-based dataset reconstruction attack targeting horizontally federated tree-based models. Our attack, carried out by a single client, exploits the discrete nature of decision trees by using split values and decision paths to infer sensitive training data from other clients. We evaluate TimberStrike on State-of-the-Art federated gradient boosting implementations across multiple frameworks, including Flower, NVFlare, and FedTree, demonstrating their vulnerability to privacy breaches. On a publicly available stroke prediction dataset, TimberStrike consistently reconstructs between 73.05% and 95.63% of the target dataset across all implementations. We further analyze Differential Privacy, showing that while it partially mitigates the attack, it also significantly degrades model performance. Our findings highlight the need for privacy-preserving mechanisms specifically designed for tree-based Federated Learning systems, and we provide preliminary insights into their design.

arxiv情報

著者 Marco Di Gennaro,Giovanni De Lucia,Stefano Longari,Stefano Zanero,Michele Carminati
発行日 2025-06-12 17:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DC, cs.LG | TimberStrike: Dataset Reconstruction Attack Revealing Privacy Leakage in Federated Tree-Based Systems はコメントを受け付けていません

Coupled reaction and diffusion governing interface evolution in solid-state batteries

要約

固体電解質間期(SEI)の形成を支配する原子レベルの反応を理解して制御することは、次世代の固体バッテリーの生存率に不可欠です。
ただし、シミュレーション速度と精度の埋もれたインターフェイスと制限を実験的に特徴付けることの困難により、課題は存続します。
対称バッテリーセル{\ symcell}に対して量子精度を使用して大規模な明示的な反応性シミュレーションを実施し、アクティブな学習と深い等式ニューラルネットワーク間ポテンシャルによって有効になります。
インターフェイスでの結合反応と相互拡散を自動的に特徴付けるために、ローカル原子環境の空間でのクラスタリングに基づいて、監視されていない分類技術を策定および使用します。
私たちの分析により、以前に報告されていない結晶性障害相の形成、Li $ _2 $ _ {0.72} $ p $ _ {0.14} $ cl $ _ {0.14} $、SEIで以前の予測が純粋に基づいた以前の予測を回避しました。
私たちのシミュレーションは、SEI形成の実験的観察に同意し、説明し、界面に沿った著しいLIの動きを特徴とする樹状突起の開始に重要なLiクリープメカニズムを解明します。
私たちのアプローチは、実験に適合する調整可能なパラメーターを使用せずに、最初の原則からデジタルツインを折り返すことです。
そのため、固体合成と電気化学における複雑な不均一なプロセスを支配する原子力学的ダイナミクスに関する洞察を得る能力を提供します。

要約(オリジナル)

Understanding and controlling the atomistic-level reactions governing the formation of the solid-electrolyte interphase (SEI) is crucial for the viability of next-generation solid state batteries. However, challenges persist due to difficulties in experimentally characterizing buried interfaces and limits in simulation speed and accuracy. We conduct large-scale explicit reactive simulations with quantum accuracy for a symmetric battery cell, {\symcell}, enabled by active learning and deep equivariant neural network interatomic potentials. To automatically characterize the coupled reactions and interdiffusion at the interface, we formulate and use unsupervised classification techniques based on clustering in the space of local atomic environments. Our analysis reveals the formation of a previously unreported crystalline disordered phase, Li$_2$S$_{0.72}$P$_{0.14}$Cl$_{0.14}$, in the SEI, that evaded previous predictions based purely on thermodynamics, underscoring the importance of explicit modeling of full reaction and transport kinetics. Our simulations agree with and explain experimental observations of the SEI formations and elucidate the Li creep mechanisms, critical to dendrite initiation, characterized by significant Li motion along the interface. Our approach is to crease a digital twin from first principles, without adjustable parameters fitted to experiment. As such, it offers capabilities to gain insights into atomistic dynamics governing complex heterogeneous processes in solid-state synthesis and electrochemistry.

arxiv情報

著者 Jingxuan Ding,Laura Zichi,Matteo Carli,Menghang Wang,Albert Musaelian,Yu Xie,Boris Kozinsky
発行日 2025-06-12 17:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.chem-ph, physics.comp-ph | Coupled reaction and diffusion governing interface evolution in solid-state batteries はコメントを受け付けていません

Execution Guided Line-by-Line Code Generation

要約

言語モデル生成プロセスにリアルタイムの実行信号を組み込んだニューラルコード生成への新しいアプローチを提示します。
大規模な言語モデル(LLM)は印象的なコード生成機能を実証していますが、通常、人間のプログラマーが定期的に活用する重要なシグナルである推論中に実行フィードバックを利用しません。
私たちの方法である実行ガイド付き分類器フリーガイダンス(EG-CFG)は、モデルがコードを生成するときに実行プロセスをガイドするラインバイラインフィードバックを提供すると、モデルがコードを生成するときに実行シグナルを動的に組み込みます。
EG-CFGはマルチステージプロセスを採用しています。まず、各行の候補プログラムの完了をサンプリングするためにビーム検索を行います。
第二に、これらの候補者をテストケースに対して実行することにより、実行信号を抽出します。
そして最後に、これらの信号を生成中にプロンプ​​トに組み込みます。
同じライン内のトークン全体で一貫した信号を維持し、ライン境界でリフレッシュする信号を維持することにより、このアプローチは構文構造を保存しながら一貫したガイダンスを提供します。
さらに、この方法は、複数のエージェントが並行して動作し、多様な推論パスを調査し、幅広い候補ソリューションを集合的に生成するタスクレベルでのネイティブ並列性を自然にサポートします。
多様なコーディングタスク全体の実験は、EG-CFGが標準的なアプローチと比較してコード生成パフォーマンスを大幅に改善し、基礎的な問題から競争の激しいプログラミングタスクまで、さまざまなレベルの複雑さにわたって最先端の結果を達成することを示しています。
私たちのコードは、https://github.com/boazlavon/eg_cfgで入手できます

要約(オリジナル)

We present a novel approach to neural code generation that incorporates real-time execution signals into the language model generation process. While large language models (LLMs) have demonstrated impressive code generation capabilities, they typically do not utilize execution feedback during inference, a critical signal that human programmers regularly leverage. Our method, Execution-Guided Classifier-Free Guidance (EG-CFG), dynamically incorporates execution signals as the model generates code, providing line-by-line feedback that guides the generation process toward executable solutions. EG-CFG employs a multi-stage process: first, we conduct beam search to sample candidate program completions for each line; second, we extract execution signals by executing these candidates against test cases; and finally, we incorporate these signals into the prompt during generation. By maintaining consistent signals across tokens within the same line and refreshing signals at line boundaries, our approach provides coherent guidance while preserving syntactic structure. Moreover, the method naturally supports native parallelism at the task level in which multiple agents operate in parallel, exploring diverse reasoning paths and collectively generating a broad set of candidate solutions. Our experiments across diverse coding tasks demonstrate that EG-CFG significantly improves code generation performance compared to standard approaches, achieving state-of-the-art results across various levels of complexity, from foundational problems to challenging competitive programming tasks. Our code is available at: https://github.com/boazlavon/eg_cfg

arxiv情報

著者 Boaz Lavon,Shahar Katz,Lior Wolf
発行日 2025-06-12 17:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Execution Guided Line-by-Line Code Generation はコメントを受け付けていません

What Exactly Does Guidance Do in Masked Discrete Diffusion Models

要約

分類器のないガイダンス(CFG)を使用して、マスクされた離散拡散モデルを研究します。
スコアエラーや離散化エラーがないと仮定すると、ガイド付きの逆ダイナミクスに対する明示的なソリューションを導き出し、サンプリング動作にどのように影響するかを正確に特徴付けることができます。
完全なデータ分布がクラスの混合物であり、目標が特定のクラスからサンプリングすることである場合、ガイダンスはクラス固有の領域を増幅し、他のクラスと共有された領域を抑制します。
この効果は、ガイダンス強度$ w $に依存し、サンプリングされた分布に明確な共分散構造を誘導します。
特に、$ 1 $ dと$ 2 $ dで定量的に異なる動作が観察されます。
また、大きな$ w $の場合、リバースダイナミクスに沿った総変動($ \ mathrm {tv} $)の減衰率が$ 1 $ dと$ 2 $ dの両方で$ w $で二重の表現であることを示しています。
これらの調査結果は、出力分布の形成だけでなく、サンプリング軌道のダイナミクスの制御において、ガイダンスの役割を強調しています。
私たちの理論分析は、ガイダンスの幾何学的効果と収束への影響を示す実験によってサポートされています。

要約(オリジナル)

We study masked discrete diffusion models with classifier-free guidance (CFG). Assuming no score error nor discretization error, we derive an explicit solution to the guided reverse dynamics, so that how guidance influences the sampling behavior can be precisely characterized. When the full data distribution is a mixture over classes and the goal is to sample from a specific class, guidance amplifies class-specific regions while suppresses regions shared with other classes. This effect depends on the guidance strength $w$ and induces distinct covariance structures in the sampled distribution. Notably, we observe quantitatively different behaviors in $1$D and $2$D. We also show that for large $w$, the decay rate of the total variation ($\mathrm{TV}$) along the reverse dynamics is double-exponential in $w$ for both $1$D and $2$D. These findings highlight the role of guidance, not just in shaping the output distribution, but also in controlling the dynamics of the sampling trajectory. Our theoretical analysis is supported by experiments that illustrate the geometric effects of guidance and its impact on convergence.

arxiv情報

著者 He Ye,Rojas Kevin,Tao Molei
発行日 2025-06-12 17:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | What Exactly Does Guidance Do in Masked Discrete Diffusion Models はコメントを受け付けていません

PRSA: Prompt Stealing Attacks against Real-World Prompt Services

要約

最近、大規模な言語モデル(LLM)は、その並外れた能力について広範囲の注目を集めています。
プロンプトは、LLMSの機能とパフォーマンスの中心であり、非常に価値のある資産になっています。
高品質のプロンプトへの依存度の高まりにより、迅速なサービスの大幅な成長が促進されています。
ただし、この成長は迅速な漏れの可能性を拡大し、攻撃者が元の機能を再現し、競合する製品を作成し、開発者の知的財産を厳しく侵害するリスクを高めます。
これらのリスクにもかかわらず、現実世界の迅速なサービスの迅速な漏れは未熟なままです。
この論文では、迅速な盗みのために設計された実用的な攻撃フレームワークであるPRSAを紹介します。
PRSAは、非常に限られた入出力分析を通じてプロンプトの詳細な意図を推進し、元の機能を複製する盗まれたプロンプトを正常に生成できます。
広範な評価は、実世界の迅速な2つのタイプの2つのタイプにわたるPRSAの有効性を示しています。
具体的には、以前の作品と比較して、迅速な市場でそれぞれ17.8%から46.1%に攻撃成功率を改善し、LLMアプリケーションストアでそれぞれ39%から52%に改善します。
特に、OpenaiのGPTストアで最も人気のある教育アプリケーションの1つである「Math」への攻撃では、100万件以上の会話があり、PRSAは以前に明らかにされていなかった隠されたイースターエッグを発見しました。
それに加えて、私たちの分析により、プロンプトとその出力の間の相互情報が高いほど、漏れのリスクが高くなることが明らかになりました。
この洞察は、PRSAによってもたらされるセキュリティの脅威に対する2つの潜在的な防御の設計と評価を導きます。
これらの調査結果は、PromptBaseやOpenaiを含むPrompt Serviceベンダーに報告し、防御策を実施するために積極的に協力しています。

要約(オリジナル)

Recently, large language models (LLMs) have garnered widespread attention for their exceptional capabilities. Prompts are central to the functionality and performance of LLMs, making them highly valuable assets. The increasing reliance on high-quality prompts has driven significant growth in prompt services. However, this growth also expands the potential for prompt leakage, increasing the risk that attackers could replicate original functionalities, create competing products, and severely infringe on developers’ intellectual property. Despite these risks, prompt leakage in real-world prompt services remains underexplored. In this paper, we present PRSA, a practical attack framework designed for prompt stealing. PRSA infers the detailed intent of prompts through very limited input-output analysis and can successfully generate stolen prompts that replicate the original functionality. Extensive evaluations demonstrate PRSA’s effectiveness across two main types of real-world prompt services. Specifically, compared to previous works, it improves the attack success rate from 17.8% to 46.1% in prompt marketplaces and from 39% to 52% in LLM application stores, respectively. Notably, in the attack on ‘Math’, one of the most popular educational applications in OpenAI’s GPT Store with over 1 million conversations, PRSA uncovered a hidden Easter egg that had not been revealed previously. Besides, our analysis reveals that higher mutual information between a prompt and its output correlates with an increased risk of leakage. This insight guides the design and evaluation of two potential defenses against the security threats posed by PRSA. We have reported these findings to the prompt service vendors, including PromptBase and OpenAI, and actively collaborate with them to implement defensive measures.

arxiv情報

著者 Yong Yang,Changjiang Li,Qingming Li,Oubo Ma,Haoyu Wang,Zonghui Wang,Yandong Gao,Wenzhi Chen,Shouling Ji
発行日 2025-06-12 13:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | PRSA: Prompt Stealing Attacks against Real-World Prompt Services はコメントを受け付けていません

Inferring Adjective Hypernyms with Language Models to Increase the Connectivity of Open English Wordnet

要約

Open English WordNetは、言語リンクされたオープンデータクラウドの一部としてOntolex-Lemonで公開されている重要なリソースです。
ただし、リソースには多くのリンクがありません。このホワイトペーパーでは、形容詞間でハイパーニーを確立する方法を調べます。
ハイパーニー関係と、名詞や動詞とは対照的に形容詞の場合のどのように異なるかについての理論的な議論を提示します。
形容詞のhypernymyと微調整の大規模な言語モデルの新しいリソースを開発して、形容詞のハイパーニーミーを予測し、タキソラマの方法論がこのタスクに適応できることを示しています。

要約(オリジナル)

Open English Wordnet is a key resource published in OntoLex-lemon as part of the linguistic linked open data cloud. There are, however, many links missing in the resource, and in this paper, we look at how we can establish hypernymy between adjectives. We present a theoretical discussion of the hypernymy relation and how it differs for adjectives in contrast to nouns and verbs. We develop a new resource for adjective hypernymy and fine-tune large language models to predict adjective hypernymy, showing that the methodology of TaxoLLaMa can be adapted to this task.

arxiv情報

著者 Lorenzo Augello,John P. McCrae
発行日 2025-06-12 14:04:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Inferring Adjective Hypernyms with Language Models to Increase the Connectivity of Open English Wordnet はコメントを受け付けていません

PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models

要約

Claude 3.7 SonnetやOpenai O1などの大規模な推論モデル(LRM)は、長い考え方(COT)の推論を使用して数学ベンチマークで強力なパフォーマンスを実現しますが、結果として生じる痕跡は不必要に冗長です。
これにより、トークンの使用とコストが膨らみ、潜在的な展開が潜在的に敏感またはAPIが制約した設定で制限します。
モデルの重みを変更せずにオーバーヘッドを削減するプロンプトのみのフレームワークである、前提(戦略的評価を使用したプロンプトベースの効率的な数学的推論)を紹介します。
Premiseは、トレースレベルの診断とグラデーションにインスパイアされた迅速な最適化を組み合わせて、回答の精度を維持しながら冗長計算を最小限に抑えます。
このアプローチは、トークンの長さのバランスをとる多目的テキスト検索と妥当性に応答する多目的テキスト検索を通じて、簡潔さと正確性を共同で最適化します。
以前の作業とは異なり、Premiseはシングルパスブラックボックスインターフェイスで実行されるため、市販のLLMに直接適用できます。
GSM8K、SVAMP、およびMATH500では、ベースラインの精度($ 96 \%\ rightArrow96 \%$ with claude、$ 91 \%\ rightArrow92 \%\%$ with gemini)に合わせて一致します。
これらの結果は、プロンプトレベルの最適化が、推論の品質を損なうことなく、効率的なLRM推論への実用的でスケーラブルなパスであることを示しています。

要約(オリジナル)

Large reasoning models (LRMs) such as Claude 3.7 Sonnet and OpenAI o1 achieve strong performance on mathematical benchmarks using lengthy chain-of-thought (CoT) reasoning, but the resulting traces are often unnecessarily verbose. This inflates token usage and cost, limiting deployment in latency-sensitive or API-constrained settings. We introduce PREMISE (PRompt-based Efficient Mathematical Inference with Strategic Evaluation), a prompt-only framework that reduces reasoning overhead without modifying model weights. PREMISE combines trace-level diagnostics with gradient-inspired prompt optimization to minimize redundant computation while preserving answer accuracy. The approach jointly optimizes brevity and correctness through a multi-objective textual search that balances token length and answer validity. Unlike prior work, PREMISE runs in a single-pass black-box interface, so it can be applied directly to commercial LLMs. On GSM8K, SVAMP, and Math500 we match or exceed baseline accuracy ($96\%\rightarrow96\%$ with Claude, $91\%\rightarrow92\%$ with Gemini) while reducing reasoning tokens by up to $87.5\%$ and cutting dollar cost by $69$–$82\%$. These results show that prompt-level optimization is a practical and scalable path to efficient LRM inference without compromising reasoning quality.

arxiv情報

著者 Ye Yu,Yaoning Yu,Haohan Wang
発行日 2025-06-12 14:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models はコメントを受け付けていません