HoTPP Benchmark: Are We Good at the Long Horizon Events Forecasting?

要約

特定の期間内の複数の将来のイベントを予測することは、金融、小売、ソーシャルネットワーク、およびヘルスケアのアプリケーションに不可欠です。
マークされた時間ポイントプロセス(MTPP)は、イベントのタイミングとラベルの両方をモデル化するための原則的なフレームワークを提供します。
ただし、ほとんどの既存の研究では、次のイベントのみを予測することに焦点を当てており、長距離予測にはほとんど露出度が低いと予測されています。
このギャップに対処するために、長距離予測を厳密に評価するように特別に設計された最初のベンチマークであるHOTPPを導入します。
広く使用されている評価メトリックの欠点を特定し、理論的に接地されたT-MAPメトリックを提案し、強力な統計的ベースラインを提示し、一般的なモデルの効率的な実装を提供します。
私たちの経験的結果は、最新のMTPPアプローチがしばしば単純な統計的ベースラインをパフォーマンスしていることを示しています。
さらに、予測されたシーケンスの多様性を分析し、ほとんどの方法がモード崩壊を示すことがわかります。
最後に、予測の質に対する自己網目上の損失と強度ベースの損失の影響を分析し、将来の研究のための有望な方向性の概要を分析します。
HOTPPソースコード、ハイパーパラメーター、および完全な評価結果は、GitHubで入手できます。

要約(オリジナル)

Forecasting multiple future events within a given time horizon is essential for applications in finance, retail, social networks, and healthcare. Marked Temporal Point Processes (MTPP) provide a principled framework to model both the timing and labels of events. However, most existing research focuses on predicting only the next event, leaving long-horizon forecasting largely underexplored. To address this gap, we introduce HoTPP, the first benchmark specifically designed to rigorously evaluate long-horizon predictions. We identify shortcomings in widely used evaluation metrics, propose a theoretically grounded T-mAP metric, present strong statistical baselines, and offer efficient implementations of popular models. Our empirical results demonstrate that modern MTPP approaches often underperform simple statistical baselines. Furthermore, we analyze the diversity of predicted sequences and find that most methods exhibit mode collapse. Finally, we analyze the impact of autoregression and intensity-based losses on prediction quality, and outline promising directions for future research. The HoTPP source code, hyperparameters, and full evaluation results are available on GitHub.

arxiv情報

著者 Ivan Karpukhin,Foma Shipilov,Andrey Savchenko
発行日 2025-04-09 15:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | HoTPP Benchmark: Are We Good at the Long Horizon Events Forecasting? はコメントを受け付けていません

Neural Signal Compression using RAMAN tinyML Accelerator for BCI Applications

要約

高品質のマルチチャネル神経記録は、神経科学の研究と臨床応用に不可欠です。
大規模な脳記録は、特に数百または数千の電極を使用した高密度皮質内記録を使用して、特に脳コンピューターインターフェイス(BCI)で、その後のオフライン分析とデコードのためにワイヤレスで送信する必要がある膨大な量のデータをしばしば生成します。
ただし、生のニューラルデータを送信すると、通信帯域幅が限られており、その結果として過剰な加熱があるため、重大な課題があります。
この課題に対処するために、積極的なフィールドポテンシャル(LFP)に最大150の圧縮比を達成する畳み込み自動エンコーダー(CAE)を使用した神経信号圧縮スキームを提案します。
CAEエンコーダーセクションは、エッジコンピューティング用に設計されたエネルギー効率の高いTINIMLアクセラレータであるラマンに実装され、その後、37.3K LUTSと8.6Kレジスタの使用率を備えたEfinix TI60 FPGAに展開されます。
ラマンは、ゼロスキップ、ゲーティング、および重量圧縮技術を介して、活性化と重量のスパースを活用します。
さらに、ハードウェアを認識したバランスの取得確率的剪定戦略を使用して、CAEエンコーダーモデルのパラメーターを剪定することにより、ハードウェアソフトウェアの共同最適化を採用し、ワークロードの不均衡の問題を解決し、インデックス作成オーバーヘッドを排除してパラメーターストレージ要件を最大32.4%削減します。
提案されているコンパクトな深さに分離可能なコンボリューション(DS-CAE)モデルを使用して、ラマンからの圧縮ニューラルデータは、22.6 dBおよび27.4 dBの優れた信号と歪み比(SNDR)と、それぞれ0.81および0.94のR2スコアとともに、2つのモンキーネオラル記録で評価されたオフラインで再構築されます。

要約(オリジナル)

High-quality, multi-channel neural recording is indispensable for neuroscience research and clinical applications. Large-scale brain recordings often produce vast amounts of data that must be wirelessly transmitted for subsequent offline analysis and decoding, especially in brain-computer interfaces (BCIs) utilizing high-density intracortical recordings with hundreds or thousands of electrodes. However, transmitting raw neural data presents significant challenges due to limited communication bandwidth and resultant excessive heating. To address this challenge, we propose a neural signal compression scheme utilizing Convolutional Autoencoders (CAEs), which achieves a compression ratio of up to 150 for compressing local field potentials (LFPs). The CAE encoder section is implemented on RAMAN, an energy-efficient tinyML accelerator designed for edge computing, and subsequently deployed on an Efinix Ti60 FPGA with 37.3k LUTs and 8.6k register utilization. RAMAN leverages sparsity in activation and weights through zero skipping, gating, and weight compression techniques. Additionally, we employ hardware-software co-optimization by pruning CAE encoder model parameters using a hardware-aware balanced stochastic pruning strategy, resolving workload imbalance issues and eliminating indexing overhead to reduce parameter storage requirements by up to 32.4%. Using the proposed compact depthwise separable convolutional autoencoder (DS-CAE) model, the compressed neural data from RAMAN is reconstructed offline with superior signal-to-noise and distortion ratios (SNDR) of 22.6 dB and 27.4 dB, along with R2 scores of 0.81 and 0.94, respectively, evaluated on two monkey neural recordings.

arxiv情報

著者 Adithya Krishna,Sohan Debnath,André van Schaik,Mahesh Mehendale,Chetan Singh Thakur
発行日 2025-04-09 16:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.HC, cs.LG | Neural Signal Compression using RAMAN tinyML Accelerator for BCI Applications はコメントを受け付けていません

AdvBDGen: Adversarially Fortified Prompt-Specific Fuzzy Backdoor Generator Against LLM Alignment

要約

大規模な言語モデル(LLMS)を調整するための人間のフィードバック(RLHF)による強化学習の採用の拡大により、アライメント中のバックドアインストールのリスクが高まり、意図しない有害行動につながりました。
既存のバックドアトリガーは通常、固定ワードパターンに限定されているため、データのクリーニング中に検出可能になり、ポストポストポストの取り外しが簡単になります。
この作業では、バックドアトリガーとしての迅速な特異的な言い換えの使用を調査し、LLMアライメント中の除去に対するステルスと耐性を高めます。
AdvBDGenを提案します。AdvBDGenは、モデル間で効果的でステルス性があり、移転可能な迅速な固有のバックドアを自動的に生成する敵対的に強化された生成的微調整フレームワークを提案します。
Advbdgenは、バックドアの設置性とステルス性を確保するために、敵によって強化された発電機ディスクリミネーターペアを採用しています。
これにより、微調整データのわずか3%を使用して、複雑なトリガーを作成して成功させることができます。
これらの背景が設置されると、推論中にLLMを脱獄することができ、従来の一定のトリガーと比較して摂動に対する安定性が改善され、除去がより困難です。
これらの調査結果は、LLMの整合における敵対的な裏口の脅威に対するより堅牢な防御を開発するために、研究コミュニティが緊急の必要性を強調しています。

要約(オリジナル)

With the growing adoption of reinforcement learning with human feedback (RLHF) for aligning large language models (LLMs), the risk of backdoor installation during alignment has increased, leading to unintended and harmful behaviors. Existing backdoor triggers are typically limited to fixed word patterns, making them detectable during data cleaning and easily removable post-poisoning. In this work, we explore the use of prompt-specific paraphrases as backdoor triggers, enhancing their stealth and resistance to removal during LLM alignment. We propose AdvBDGen, an adversarially fortified generative fine-tuning framework that automatically generates prompt-specific backdoors that are effective, stealthy, and transferable across models. AdvBDGen employs a generator-discriminator pair, fortified by an adversary, to ensure the installability and stealthiness of backdoors. It enables the crafting and successful installation of complex triggers using as little as 3% of the fine-tuning data. Once installed, these backdoors can jailbreak LLMs during inference, demonstrate improved stability against perturbations compared to traditional constant triggers, and are more challenging to remove. These findings underscore an urgent need for the research community to develop more robust defenses against adversarial backdoor threats in LLM alignment.

arxiv情報

著者 Pankayaraj Pathmanathan,Udari Madhushani Sehwag,Michael-Andrei Panaitescu-Liess,Furong Huang
発行日 2025-04-09 16:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | AdvBDGen: Adversarially Fortified Prompt-Specific Fuzzy Backdoor Generator Against LLM Alignment はコメントを受け付けていません

A Deep Generative Learning Approach for Two-stage Adaptive Robust Optimization

要約

2段階の適応的堅牢な最適化(ARO)は、不確実性の下で計画するための強力なアプローチであり、不確実性が実現した後に行われた第一段階の決定と頼みのある決定のバランスをとることができます。
不確実性を説明するために、モデラーは通常、潜在的な結果が考慮される潜在的な結果について設定された単純な不確実性を定義します。
ただし、これらのセットを定義するための古典的な方法は、意図せずに幅広い非現実的な結果をキャプチャして、ありそうもない不測の事態を見越して過度に保守的で費用のかかる計画をもたらします。
この作業では、変分自動エンコーダーを使用して2段階の適応堅牢な最適化のために敵対的な生成を実行するソリューションアルゴリズムであるAgroを紹介します。
農業は、同時に敵対的で現実的な高次元的な偶発事象を生成し、標準的な方法よりも低い計画コストで第一段階の決定の堅牢性を改善します。
生成された偶発性が不確実性分布の高密度領域にあることを確認するために、Agroは、VAEデコード変換の下で「潜在的な」不確実性セットのイメージとして厳しい不確実性セットを定義します。
次に、微分可能な最適化方法を活用することにより、潜在的な不確実性セットにわたってリコースコストを最大化するために、勾配上昇を使用して使用されます。
Agroの費用効率は、合成生産分布の問題と現実世界の電力システム拡張設定の両方に適用することにより実証します。
Agroは、標準の列とコントレインのアルゴリズムを、生産分布計画で最大1.8%、電力システム拡張で最大11.6%上回ることを示しています。

要約(オリジナル)

Two-stage adaptive robust optimization (ARO) is a powerful approach for planning under uncertainty, balancing first-stage decisions with recourse decisions made after uncertainty is realized. To account for uncertainty, modelers typically define a simple uncertainty set over which potential outcomes are considered. However, classical methods for defining these sets unintentionally capture a wide range of unrealistic outcomes, resulting in overly-conservative and costly planning in anticipation of unlikely contingencies. In this work, we introduce AGRO, a solution algorithm that performs adversarial generation for two-stage adaptive robust optimization using a variational autoencoder. AGRO generates high-dimensional contingencies that are simultaneously adversarial and realistic, improving the robustness of first-stage decisions at a lower planning cost than standard methods. To ensure generated contingencies lie in high-density regions of the uncertainty distribution, AGRO defines a tight uncertainty set as the image of ‘latent’ uncertainty sets under the VAE decoding transformation. Projected gradient ascent is then used to maximize recourse costs over the latent uncertainty sets by leveraging differentiable optimization methods. We demonstrate the cost-efficiency of AGRO by applying it to both a synthetic production-distribution problem and a real-world power system expansion setting. We show that AGRO outperforms the standard column-and-constraint algorithm by up to 1.8% in production-distribution planning and up to 11.6% in power system expansion.

arxiv情報

著者 Aron Brenner,Rahman Khorramfar,Jennifer Sun,Saurabh Amin
発行日 2025-04-09 16:24:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | A Deep Generative Learning Approach for Two-stage Adaptive Robust Optimization はコメントを受け付けていません

Assumption-free fidelity bounds for hardware noise characterization

要約

量子優位制度では、量子コンピューターは、避けられないハードウェアノイズを推定、緩和、または修正できる場合、いくつかのタスクで古典的なマシンを克服する場合があります。
エラーを推定するには、量子優位体制では実行不可能になる古典的なシミュレーションが必要です。
機械学習データ駆動型のアプローチとコンフォーマル予測、その軽度の仮定と有限サンプルの妥当性で知られている機械学習の不確実性の定量化ツールを活用して、量子デバイスのノイズレス出力とノイズの多い出力の忠実性の理論的に有効な上限を見つけます。
合理的な外挿の仮定では、提案されたスキームは任意の量子コンピューティングハードウェアに適用され、デバイスのノイズソースのモデリングを必要とせず、古典的なシミュレーションが利用できない場合に使用できます。
量子優位制度で。

要約(オリジナル)

In the Quantum Supremacy regime, quantum computers may overcome classical machines on several tasks if we can estimate, mitigate, or correct unavoidable hardware noise. Estimating the error requires classical simulations, which become unfeasible in the Quantum Supremacy regime. We leverage Machine Learning data-driven approaches and Conformal Prediction, a Machine Learning uncertainty quantification tool known for its mild assumptions and finite-sample validity, to find theoretically valid upper bounds of the fidelity between noiseless and noisy outputs of quantum devices. Under reasonable extrapolation assumptions, the proposed scheme applies to any Quantum Computing hardware, does not require modeling the device’s noise sources, and can be used when classical simulations are unavailable, e.g. in the Quantum Supremacy regime.

arxiv情報

著者 Nicolo Colombo
発行日 2025-04-09 16:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph, stat.ML | Assumption-free fidelity bounds for hardware noise characterization はコメントを受け付けていません

FAME: Introducing Fuzzy Additive Models for Explainable AI

要約

この研究では、説明可能な人工知能(XAI)のソリューションとして説明可能性(名声)を備えたファジー添加剤モデル(FAM)とFAMを紹介します。
ファミリは3つの層で構成されています。(1)入力空間を圧縮する投影層、(2)SFLSが追加インデックスモデル内のサブネットワークとして機能する単一の入力出力ファジーロジックシステム(SFLS)の上に構築されたファジーレイヤー、および(3)アグリゲーションレイヤー。
このアーキテクチャは、SFLの解釈可能性を統合します。SFLは、人間の理解可能な場合に使用されるルールを使用し、入出力関係の説明可能性を統合し、添加剤モデル構造を活用します。
さらに、SFLを使用すると、本質的に次元の呪いやルール爆発などの問題に対処します。
解釈可能性をさらに向上させるために、FAM内の先行空間を彫刻し、それを名声に変える方法を提案します。
名声が、より少ないアクティブなルールで入出力関係を捉え、したがって明確さを改善することを示しています。
Famファミリーを学ぶために、深い学習フレームワークを提示します。
提示された比較結果を通じて、解釈可能性を維持しながらモデルの複雑さを減らし、Xaiにとって貴重なツールとして配置するという名声の有望な可能性を示します。

要約(オリジナル)

In this study, we introduce the Fuzzy Additive Model (FAM) and FAM with Explainability (FAME) as a solution for Explainable Artificial Intelligence (XAI). The family consists of three layers: (1) a Projection Layer that compresses the input space, (2) a Fuzzy Layer built upon Single Input-Single Output Fuzzy Logic Systems (SFLS), where SFLS functions as subnetworks within an additive index model, and (3) an Aggregation Layer. This architecture integrates the interpretability of SFLS, which uses human-understandable if-then rules, with the explainability of input-output relationships, leveraging the additive model structure. Furthermore, using SFLS inherently addresses issues such as the curse of dimensionality and rule explosion. To further improve interpretability, we propose a method for sculpting antecedent space within FAM, transforming it into FAME. We show that FAME captures the input-output relationships with fewer active rules, thus improving clarity. To learn the FAM family, we present a deep learning framework. Through the presented comparative results, we demonstrate the promising potential of FAME in reducing model complexity while retaining interpretability, positioning it as a valuable tool for XAI.

arxiv情報

著者 Omer Bahadir Gokmen,Yusuf Guven,Tufan Kumbasar
発行日 2025-04-09 16:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | FAME: Introducing Fuzzy Additive Models for Explainable AI はコメントを受け付けていません

Adapting GT2-FLS for Uncertainty Quantification: A Blueprint Calibration Strategy

要約

不確実性の定量化(UQ)は、ハイステークスアプリケーションで信頼できるディープラーニング(DL)モデルを展開するために重要です。
最近、一般的なタイプ2ファジーロジックシステム(GT2-FLSS)がUQに効果的であることが証明されており、不確実性をキャプチャする予測間隔(PI)を提供しています。
ただし、既存の方法は、新しいカバレッジレベル$(\ phi_d)$のPIを生成するには通常、モデルを再訓練する必要があるため、計算効率と適応性に苦労していることがよくあります。
さらに、UQの条件分布全体を直接推定する方法は計算高価であり、実際のシナリオでのスケーラビリティを制限します。
この研究では、GT2-FLSSの青写真キャリブレーション戦略を提案し、再訓練なしで任意の任意の$ \ phi_d $への効率的な適応を可能にすることにより、これらの課題に対処します。
$ \ alpha $ -planeタイプの削減されたセットと不確実性カバレッジの関係を調査することにより、2つのキャリブレーション方法を開発します:ルックアップテーブルベースのアプローチとデリバティブフリーの最適化アルゴリズム。
これらの方法により、GT2-FLSSは正確で信頼性の高いPIを生成しながら、計算オーバーヘッドを大幅に削減できます。
高次元データセットの実験結果は、キャリブレーションされたGT2-FLSがUQで優れたパフォーマンスを達成することを示しており、スケーラブルで実用的なアプリケーションの可能性を強調しています。

要約(オリジナル)

Uncertainty Quantification (UQ) is crucial for deploying reliable Deep Learning (DL) models in high-stakes applications. Recently, General Type-2 Fuzzy Logic Systems (GT2-FLSs) have been proven to be effective for UQ, offering Prediction Intervals (PIs) to capture uncertainty. However, existing methods often struggle with computational efficiency and adaptability, as generating PIs for new coverage levels $(\phi_d)$ typically requires retraining the model. Moreover, methods that directly estimate the entire conditional distribution for UQ are computationally expensive, limiting their scalability in real-world scenarios. This study addresses these challenges by proposing a blueprint calibration strategy for GT2-FLSs, enabling efficient adaptation to any desired $\phi_d$ without retraining. By exploring the relationship between $\alpha$-plane type reduced sets and uncertainty coverage, we develop two calibration methods: a lookup table-based approach and a derivative-free optimization algorithm. These methods allow GT2-FLSs to produce accurate and reliable PIs while significantly reducing computational overhead. Experimental results on high-dimensional datasets demonstrate that the calibrated GT2-FLS achieves superior performance in UQ, highlighting its potential for scalable and practical applications.

arxiv情報

著者 Yusuf Guven,Tufan Kumbasar
発行日 2025-04-09 16:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Adapting GT2-FLS for Uncertainty Quantification: A Blueprint Calibration Strategy はコメントを受け付けていません

Using ML filters to help automated vulnerability repairs: when it helps and when it doesn’t

要約

[コンテキスト:]自動プログラム修復における候補パッチの受け入れは、通常、オラクルのテストに基づいています。
テストには通常、アプリケーションを構築するための費用のかかるプロセスが必要ですが、MLモデルを使用してパッチをすばやく分類できるため、肯定的なフィードバックループでより多くの候補パッチを生成できるようにします。
[問題:]モデルの予測が信頼できない場合(脆弱性検出のように)、テストに基づいてより信頼性の高いオラクルをほとんど置き換えることができません。
[新しいアイデア:] MLモデルを、テストに基づいて従来のフィルターの前に置かれた候補パッチの予備フィルターとして使用することを提案します。
[予備的な結果:]そのような操作を実際に意味のあるMLアルゴリズムの精度とリコールに関するいくつかの理論的境界を特定します。
これらの境界と文献に掲載された結果により、テストに基づいてAPR4vulnなどの従来のAVRパイプラインよりも、最先端の脆弱性検出器がどれほど速く効果的であるかを計算します。

要約(オリジナル)

[Context:] The acceptance of candidate patches in automated program repair has been typically based on testing oracles. Testing requires typically a costly process of building the application while ML models can be used to quickly classify patches, thus allowing more candidate patches to be generated in a positive feedback loop. [Problem:] If the model predictions are unreliable (as in vulnerability detection) they can hardly replace the more reliable oracles based on testing. [New Idea:] We propose to use an ML model as a preliminary filter of candidate patches which is put in front of a traditional filter based on testing. [Preliminary Results:] We identify some theoretical bounds on the precision and recall of the ML algorithm that makes such operation meaningful in practice. With these bounds and the results published in the literature, we calculate how fast some of state-of-the art vulnerability detectors must be to be more effective over a traditional AVR pipeline such as APR4Vuln based just on testing.

arxiv情報

著者 Maria Camporese,Fabio Massacci
発行日 2025-04-09 16:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SE | Using ML filters to help automated vulnerability repairs: when it helps and when it doesn’t はコメントを受け付けていません

Identifying Key Challenges of Hardness-Based Resampling

要約

クラス間のパフォーマンスのギャップは、機械学習における永続的な課題のままであり、多くの場合、クラスの硬度の変動に起因します。
クラスの硬度を定量化する1つの方法は、サンプルの複雑さ、つまり特定のクラスを効果的に学習するために必要なサンプルの最小数です。
サンプルの複雑さ理論は、クラスの硬度は一般化に必要なデータの量の違いによって駆動されることを示唆しています。
つまり、より難しいクラスは、一般化を実現するために大幅に多くのサンプルを必要とします。
したがって、硬度ベースの再サンプリングは、これらのパフォーマンスの格差を軽減するための有望なアプローチです。
データ緩和設定では、再サンプリングが広範囲に研究されていますが、バランスの取れたデータセットへの影響は未調査のままです。
これは、データの不均衡または硬度の不均衡に対処するため、再サンプリングが効果的であるかどうかの基本的な疑問を提起します。
クラスの不均衡をバランスの取れたデータセットに導入し、パフォーマンスの格差への影響を評価することにより、この質問に対処し始めます。
ハードクラスをオーバーサンプリングし、簡単なクラスをサンプリングして、ハードクラスをサンプルの複雑さの要件に近づけ、公平のために一定のデータセットサイズを維持します。
マージン(AUM)硬度推定器の下の領域を使用してクラスレベルの硬度を推定し、それを活用して再サンプリング比を計算します。
これらの比率を使用して、よく知られているCIFAR-10およびCIFAR-100データセットで硬度ベースの再サンプリングを実行します。
理論的な期待に反して、我々の結果は、硬度ベースの再サンプリングがクラスごとのパフォーマンスの格差に有意に影響しないことを示しています。
この矛盾を説明するために、硬度ベースの不均衡に固有の重要な課題を特定するために詳細な分析を実施し、従来のデータベースの不均衡と区別します。
私たちの洞察は、理論的なサンプルの複雑さの期待が実際のパフォーマンスの向上に変換できない理由を説明するのに役立ち、将来の研究のためのガイドラインを提供します。

要約(オリジナル)

Performance gap across classes remains a persistent challenge in machine learning, often attributed to variations in class hardness. One way to quantify class hardness is through sample complexity – the minimum number of samples required to effectively learn a given class. Sample complexity theory suggests that class hardness is driven by differences in the amount of data required for generalization. That is, harder classes need substantially more samples to achieve generalization. Therefore, hardness-based resampling is a promising approach to mitigate these performance disparities. While resampling has been studied extensively in data-imbalanced settings, its impact on balanced datasets remains unexplored. This raises the fundamental question whether resampling is effective because it addresses data imbalance or hardness imbalance. We begin addressing this question by introducing class imbalance into balanced datasets and evaluate its effect on performance disparities. We oversample hard classes and undersample easy classes to bring hard classes closer to their sample complexity requirements while maintaining a constant dataset size for fairness. We estimate class-level hardness using the Area Under the Margin (AUM) hardness estimator and leverage it to compute resampling ratios. Using these ratios, we perform hardness-based resampling on the well-known CIFAR-10 and CIFAR-100 datasets. Contrary to theoretical expectations, our results show that hardness-based resampling does not meaningfully affect class-wise performance disparities. To explain this discrepancy, we conduct detailed analyses to identify key challenges unique to hardness-based imbalance, distinguishing it from traditional data-based imbalance. Our insights help explain why theoretical sample complexity expectations fail to translate into practical performance gains and we provide guidelines for future research.

arxiv情報

著者 Pawel Pukowski,Venet Osmani
発行日 2025-04-09 16:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Identifying Key Challenges of Hardness-Based Resampling はコメントを受け付けていません

To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning

要約

大規模な言語モデルの最近の進歩により、特に検索とバックトラッキングを含む技術を通じて、推論能力が大幅に改善されました。
バックトラッキングは、長い考え方(COT)生成を介して連続した線形化された探索を有効にすることにより、テスト時間計算を自然にスケールします。
ただし、これはテスト時間計算をスケーリングするための唯一の戦略ではありません。Best-n-n Selectionとの並列サンプリングは、多様なソリューションを同時に生成する代替手段を提供します。
順次検索の採用が増えているにもかかわらず、特に固定された計算予算の下での並列サンプリングに対するその利点は、あまり理解されていません。
この論文では、これら2つのアプローチを、CountdownとSudokuという2つの挑戦的な推論タスクで体系的に比較します。
驚くべきことに、シーケンシャル検索はカウントダウンでの並行サンプリングを下回っているが、スノクでそれを上回ることができることがわかり、バックトラッキングは普遍的に有益ではないことを示唆しています。
バックトラッキングを引き起こす可能性のある2つの要因を特定します。(1)固定検索トレースのトレーニングは、モデルを最適ではない戦略にロックでき、(2)明示的なCOT監督は「暗黙的」(非言語化)推論を阻止できます。
分析を補強学習(RL)に拡張すると、バックトラッキング機能を備えたモデルがRL微調整から大幅に利益をもたらし、バックトラッキングのないモデルが限られた混合ゲインを参照していることを示しています。
一緒に、これらの調査結果は、バックトラックが普遍的にLLMの推論を強化し、代わりにタスク構造、トレーニングデータ、モデルスケール、学習パラダイムの間の複雑な相互作用を明らかにするという仮定に挑戦します。

要約(オリジナル)

Recent advancements in large language models have significantly improved their reasoning abilities, particularly through techniques involving search and backtracking. Backtracking naturally scales test-time compute by enabling sequential, linearized exploration via long chain-of-thought (CoT) generation. However, this is not the only strategy for scaling test-time compute: parallel sampling with best-of-n selection provides an alternative that generates diverse solutions simultaneously. Despite the growing adoption of sequential search, its advantages over parallel sampling–especially under a fixed compute budget remain poorly understood. In this paper, we systematically compare these two approaches on two challenging reasoning tasks: CountDown and Sudoku. Surprisingly, we find that sequential search underperforms parallel sampling on CountDown but outperforms it on Sudoku, suggesting that backtracking is not universally beneficial. We identify two factors that can cause backtracking to degrade performance: (1) training on fixed search traces can lock models into suboptimal strategies, and (2) explicit CoT supervision can discourage ‘implicit’ (non-verbalized) reasoning. Extending our analysis to reinforcement learning (RL), we show that models with backtracking capabilities benefit significantly from RL fine-tuning, while models without backtracking see limited, mixed gains. Together, these findings challenge the assumption that backtracking universally enhances LLM reasoning, instead revealing a complex interaction between task structure, training data, model scale, and learning paradigm.

arxiv情報

著者 Tian Qin,David Alvarez-Melis,Samy Jelassi,Eran Malach
発行日 2025-04-09 17:12:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning はコメントを受け付けていません