Free Random Projection for In-Context Reinforcement Learning

要約

明示的な双曲線潜在表現とアーキテクチャによって示されるように、階層的な帰納的バイアスは、補強学習における一般化可能な政策を促進すると仮定されています。
したがって、より柔軟なアプローチは、これらのバイアスをアルゴリズムから自然に出現させることです。
階層構造が本質的に生じるランダムな直交行列を構築する自由確率理論に基づいた入力マッピングである自由ランダム投影を導入します。
自由なランダム投影は、明示的なアーキテクチャの変更を必要とせずに入力空間内で階層組織をエンコードすることにより、既存のコンテキスト内強化学習フレームワークにシームレスに統合します。
マルチ環境ベンチマークの経験的結果は、自由なランダム投影が標準のランダム投影を一貫して上回り、一般化の改善につながることを示しています。
さらに、線形溶媒和マルコフ決定プロセス内の分析と、カーネルランダムマトリックスのスペクトルの調査により、自由ランダム投影の強化されたパフォーマンスの理論的基盤が明らかになり、階層的に構造化された状態空間での効果的な適応能力が強調されています。

要約(オリジナル)

Hierarchical inductive biases are hypothesized to promote generalizable policies in reinforcement learning, as demonstrated by explicit hyperbolic latent representations and architectures. Therefore, a more flexible approach is to have these biases emerge naturally from the algorithm. We introduce Free Random Projection, an input mapping grounded in free probability theory that constructs random orthogonal matrices where hierarchical structure arises inherently. The free random projection integrates seamlessly into existing in-context reinforcement learning frameworks by encoding hierarchical organization within the input space without requiring explicit architectural modifications. Empirical results on multi-environment benchmarks show that free random projection consistently outperforms the standard random projection, leading to improvements in generalization. Furthermore, analyses within linearly solvable Markov decision processes and investigations of the spectrum of kernel random matrices reveal the theoretical underpinnings of free random projection’s enhanced performance, highlighting its capacity for effective adaptation in hierarchically structured state spaces.

arxiv情報

著者 Tomohiro Hayase,Benoît Collins,Nakamasa Inoue
発行日 2025-04-09 15:38:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, stat.ML | Free Random Projection for In-Context Reinforcement Learning はコメントを受け付けていません

Dissimilar Batch Decompositions of Random Datasets

要約

より良い学習のために、大きなデータセットは多くの場合、小さなバッチに分割され、予測モデルに連続的に供給されます。
この論文では、このようなバッチ分解を確率的な観点から研究します。
データポイント(おそらく破損している可能性がある)は、特定のスペースから独立して描画され、2つのデータポイント間の類似性の概念を定義すると仮定します。
次に、各バッチ内の類似性の量を制限し、最小サイズの高い確率境界を取得する分解を検討します。
類似性の制約と全体のサイズを緩和することとの固有のトレードオフを示し、Martingaleメソッドを使用して、特定の類似性を持つデータサブセットの最大サイズの境界を取得します。

要約(オリジナル)

For better learning, large datasets are often split into small batches and fed sequentially to the predictive model. In this paper, we study such batch decompositions from a probabilistic perspective. We assume that data points (possibly corrupted) are drawn independently from a given space and define a concept of similarity between two data points. We then consider decompositions that restrict the amount of similarity within each batch and obtain high probability bounds for the minimum size. We demonstrate an inherent tradeoff between relaxing the similarity constraint and the overall size and also use martingale methods to obtain bounds for the maximum size of data subsets with a given similarity.

arxiv情報

著者 Ghurumuruhan Ganesan
発行日 2025-04-09 15:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, stat.ML | Dissimilar Batch Decompositions of Random Datasets はコメントを受け付けていません

HoTPP Benchmark: Are We Good at the Long Horizon Events Forecasting?

要約

特定の期間内の複数の将来のイベントを予測することは、金融、小売、ソーシャルネットワーク、およびヘルスケアのアプリケーションに不可欠です。
マークされた時間ポイントプロセス(MTPP)は、イベントのタイミングとラベルの両方をモデル化するための原則的なフレームワークを提供します。
ただし、ほとんどの既存の研究では、次のイベントのみを予測することに焦点を当てており、長距離予測にはほとんど露出度が低いと予測されています。
このギャップに対処するために、長距離予測を厳密に評価するように特別に設計された最初のベンチマークであるHOTPPを導入します。
広く使用されている評価メトリックの欠点を特定し、理論的に接地されたT-MAPメトリックを提案し、強力な統計的ベースラインを提示し、一般的なモデルの効率的な実装を提供します。
私たちの経験的結果は、最新のMTPPアプローチがしばしば単純な統計的ベースラインをパフォーマンスしていることを示しています。
さらに、予測されたシーケンスの多様性を分析し、ほとんどの方法がモード崩壊を示すことがわかります。
最後に、予測の質に対する自己網目上の損失と強度ベースの損失の影響を分析し、将来の研究のための有望な方向性の概要を分析します。
HOTPPソースコード、ハイパーパラメーター、および完全な評価結果は、GitHubで入手できます。

要約(オリジナル)

Forecasting multiple future events within a given time horizon is essential for applications in finance, retail, social networks, and healthcare. Marked Temporal Point Processes (MTPP) provide a principled framework to model both the timing and labels of events. However, most existing research focuses on predicting only the next event, leaving long-horizon forecasting largely underexplored. To address this gap, we introduce HoTPP, the first benchmark specifically designed to rigorously evaluate long-horizon predictions. We identify shortcomings in widely used evaluation metrics, propose a theoretically grounded T-mAP metric, present strong statistical baselines, and offer efficient implementations of popular models. Our empirical results demonstrate that modern MTPP approaches often underperform simple statistical baselines. Furthermore, we analyze the diversity of predicted sequences and find that most methods exhibit mode collapse. Finally, we analyze the impact of autoregression and intensity-based losses on prediction quality, and outline promising directions for future research. The HoTPP source code, hyperparameters, and full evaluation results are available on GitHub.

arxiv情報

著者 Ivan Karpukhin,Foma Shipilov,Andrey Savchenko
発行日 2025-04-09 15:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | HoTPP Benchmark: Are We Good at the Long Horizon Events Forecasting? はコメントを受け付けていません

Neural Signal Compression using RAMAN tinyML Accelerator for BCI Applications

要約

高品質のマルチチャネル神経記録は、神経科学の研究と臨床応用に不可欠です。
大規模な脳記録は、特に数百または数千の電極を使用した高密度皮質内記録を使用して、特に脳コンピューターインターフェイス(BCI)で、その後のオフライン分析とデコードのためにワイヤレスで送信する必要がある膨大な量のデータをしばしば生成します。
ただし、生のニューラルデータを送信すると、通信帯域幅が限られており、その結果として過剰な加熱があるため、重大な課題があります。
この課題に対処するために、積極的なフィールドポテンシャル(LFP)に最大150の圧縮比を達成する畳み込み自動エンコーダー(CAE)を使用した神経信号圧縮スキームを提案します。
CAEエンコーダーセクションは、エッジコンピューティング用に設計されたエネルギー効率の高いTINIMLアクセラレータであるラマンに実装され、その後、37.3K LUTSと8.6Kレジスタの使用率を備えたEfinix TI60 FPGAに展開されます。
ラマンは、ゼロスキップ、ゲーティング、および重量圧縮技術を介して、活性化と重量のスパースを活用します。
さらに、ハードウェアを認識したバランスの取得確率的剪定戦略を使用して、CAEエンコーダーモデルのパラメーターを剪定することにより、ハードウェアソフトウェアの共同最適化を採用し、ワークロードの不均衡の問題を解決し、インデックス作成オーバーヘッドを排除してパラメーターストレージ要件を最大32.4%削減します。
提案されているコンパクトな深さに分離可能なコンボリューション(DS-CAE)モデルを使用して、ラマンからの圧縮ニューラルデータは、22.6 dBおよび27.4 dBの優れた信号と歪み比(SNDR)と、それぞれ0.81および0.94のR2スコアとともに、2つのモンキーネオラル記録で評価されたオフラインで再構築されます。

要約(オリジナル)

High-quality, multi-channel neural recording is indispensable for neuroscience research and clinical applications. Large-scale brain recordings often produce vast amounts of data that must be wirelessly transmitted for subsequent offline analysis and decoding, especially in brain-computer interfaces (BCIs) utilizing high-density intracortical recordings with hundreds or thousands of electrodes. However, transmitting raw neural data presents significant challenges due to limited communication bandwidth and resultant excessive heating. To address this challenge, we propose a neural signal compression scheme utilizing Convolutional Autoencoders (CAEs), which achieves a compression ratio of up to 150 for compressing local field potentials (LFPs). The CAE encoder section is implemented on RAMAN, an energy-efficient tinyML accelerator designed for edge computing, and subsequently deployed on an Efinix Ti60 FPGA with 37.3k LUTs and 8.6k register utilization. RAMAN leverages sparsity in activation and weights through zero skipping, gating, and weight compression techniques. Additionally, we employ hardware-software co-optimization by pruning CAE encoder model parameters using a hardware-aware balanced stochastic pruning strategy, resolving workload imbalance issues and eliminating indexing overhead to reduce parameter storage requirements by up to 32.4%. Using the proposed compact depthwise separable convolutional autoencoder (DS-CAE) model, the compressed neural data from RAMAN is reconstructed offline with superior signal-to-noise and distortion ratios (SNDR) of 22.6 dB and 27.4 dB, along with R2 scores of 0.81 and 0.94, respectively, evaluated on two monkey neural recordings.

arxiv情報

著者 Adithya Krishna,Sohan Debnath,André van Schaik,Mahesh Mehendale,Chetan Singh Thakur
発行日 2025-04-09 16:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.HC, cs.LG | Neural Signal Compression using RAMAN tinyML Accelerator for BCI Applications はコメントを受け付けていません

AdvBDGen: Adversarially Fortified Prompt-Specific Fuzzy Backdoor Generator Against LLM Alignment

要約

大規模な言語モデル(LLMS)を調整するための人間のフィードバック(RLHF)による強化学習の採用の拡大により、アライメント中のバックドアインストールのリスクが高まり、意図しない有害行動につながりました。
既存のバックドアトリガーは通常、固定ワードパターンに限定されているため、データのクリーニング中に検出可能になり、ポストポストポストの取り外しが簡単になります。
この作業では、バックドアトリガーとしての迅速な特異的な言い換えの使用を調査し、LLMアライメント中の除去に対するステルスと耐性を高めます。
AdvBDGenを提案します。AdvBDGenは、モデル間で効果的でステルス性があり、移転可能な迅速な固有のバックドアを自動的に生成する敵対的に強化された生成的微調整フレームワークを提案します。
Advbdgenは、バックドアの設置性とステルス性を確保するために、敵によって強化された発電機ディスクリミネーターペアを採用しています。
これにより、微調整データのわずか3%を使用して、複雑なトリガーを作成して成功させることができます。
これらの背景が設置されると、推論中にLLMを脱獄することができ、従来の一定のトリガーと比較して摂動に対する安定性が改善され、除去がより困難です。
これらの調査結果は、LLMの整合における敵対的な裏口の脅威に対するより堅牢な防御を開発するために、研究コミュニティが緊急の必要性を強調しています。

要約(オリジナル)

With the growing adoption of reinforcement learning with human feedback (RLHF) for aligning large language models (LLMs), the risk of backdoor installation during alignment has increased, leading to unintended and harmful behaviors. Existing backdoor triggers are typically limited to fixed word patterns, making them detectable during data cleaning and easily removable post-poisoning. In this work, we explore the use of prompt-specific paraphrases as backdoor triggers, enhancing their stealth and resistance to removal during LLM alignment. We propose AdvBDGen, an adversarially fortified generative fine-tuning framework that automatically generates prompt-specific backdoors that are effective, stealthy, and transferable across models. AdvBDGen employs a generator-discriminator pair, fortified by an adversary, to ensure the installability and stealthiness of backdoors. It enables the crafting and successful installation of complex triggers using as little as 3% of the fine-tuning data. Once installed, these backdoors can jailbreak LLMs during inference, demonstrate improved stability against perturbations compared to traditional constant triggers, and are more challenging to remove. These findings underscore an urgent need for the research community to develop more robust defenses against adversarial backdoor threats in LLM alignment.

arxiv情報

著者 Pankayaraj Pathmanathan,Udari Madhushani Sehwag,Michael-Andrei Panaitescu-Liess,Furong Huang
発行日 2025-04-09 16:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | AdvBDGen: Adversarially Fortified Prompt-Specific Fuzzy Backdoor Generator Against LLM Alignment はコメントを受け付けていません

A Deep Generative Learning Approach for Two-stage Adaptive Robust Optimization

要約

2段階の適応的堅牢な最適化(ARO)は、不確実性の下で計画するための強力なアプローチであり、不確実性が実現した後に行われた第一段階の決定と頼みのある決定のバランスをとることができます。
不確実性を説明するために、モデラーは通常、潜在的な結果が考慮される潜在的な結果について設定された単純な不確実性を定義します。
ただし、これらのセットを定義するための古典的な方法は、意図せずに幅広い非現実的な結果をキャプチャして、ありそうもない不測の事態を見越して過度に保守的で費用のかかる計画をもたらします。
この作業では、変分自動エンコーダーを使用して2段階の適応堅牢な最適化のために敵対的な生成を実行するソリューションアルゴリズムであるAgroを紹介します。
農業は、同時に敵対的で現実的な高次元的な偶発事象を生成し、標準的な方法よりも低い計画コストで第一段階の決定の堅牢性を改善します。
生成された偶発性が不確実性分布の高密度領域にあることを確認するために、Agroは、VAEデコード変換の下で「潜在的な」不確実性セットのイメージとして厳しい不確実性セットを定義します。
次に、微分可能な最適化方法を活用することにより、潜在的な不確実性セットにわたってリコースコストを最大化するために、勾配上昇を使用して使用されます。
Agroの費用効率は、合成生産分布の問題と現実世界の電力システム拡張設定の両方に適用することにより実証します。
Agroは、標準の列とコントレインのアルゴリズムを、生産分布計画で最大1.8%、電力システム拡張で最大11.6%上回ることを示しています。

要約(オリジナル)

Two-stage adaptive robust optimization (ARO) is a powerful approach for planning under uncertainty, balancing first-stage decisions with recourse decisions made after uncertainty is realized. To account for uncertainty, modelers typically define a simple uncertainty set over which potential outcomes are considered. However, classical methods for defining these sets unintentionally capture a wide range of unrealistic outcomes, resulting in overly-conservative and costly planning in anticipation of unlikely contingencies. In this work, we introduce AGRO, a solution algorithm that performs adversarial generation for two-stage adaptive robust optimization using a variational autoencoder. AGRO generates high-dimensional contingencies that are simultaneously adversarial and realistic, improving the robustness of first-stage decisions at a lower planning cost than standard methods. To ensure generated contingencies lie in high-density regions of the uncertainty distribution, AGRO defines a tight uncertainty set as the image of ‘latent’ uncertainty sets under the VAE decoding transformation. Projected gradient ascent is then used to maximize recourse costs over the latent uncertainty sets by leveraging differentiable optimization methods. We demonstrate the cost-efficiency of AGRO by applying it to both a synthetic production-distribution problem and a real-world power system expansion setting. We show that AGRO outperforms the standard column-and-constraint algorithm by up to 1.8% in production-distribution planning and up to 11.6% in power system expansion.

arxiv情報

著者 Aron Brenner,Rahman Khorramfar,Jennifer Sun,Saurabh Amin
発行日 2025-04-09 16:24:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | A Deep Generative Learning Approach for Two-stage Adaptive Robust Optimization はコメントを受け付けていません

Assumption-free fidelity bounds for hardware noise characterization

要約

量子優位制度では、量子コンピューターは、避けられないハードウェアノイズを推定、緩和、または修正できる場合、いくつかのタスクで古典的なマシンを克服する場合があります。
エラーを推定するには、量子優位体制では実行不可能になる古典的なシミュレーションが必要です。
機械学習データ駆動型のアプローチとコンフォーマル予測、その軽度の仮定と有限サンプルの妥当性で知られている機械学習の不確実性の定量化ツールを活用して、量子デバイスのノイズレス出力とノイズの多い出力の忠実性の理論的に有効な上限を見つけます。
合理的な外挿の仮定では、提案されたスキームは任意の量子コンピューティングハードウェアに適用され、デバイスのノイズソースのモデリングを必要とせず、古典的なシミュレーションが利用できない場合に使用できます。
量子優位制度で。

要約(オリジナル)

In the Quantum Supremacy regime, quantum computers may overcome classical machines on several tasks if we can estimate, mitigate, or correct unavoidable hardware noise. Estimating the error requires classical simulations, which become unfeasible in the Quantum Supremacy regime. We leverage Machine Learning data-driven approaches and Conformal Prediction, a Machine Learning uncertainty quantification tool known for its mild assumptions and finite-sample validity, to find theoretically valid upper bounds of the fidelity between noiseless and noisy outputs of quantum devices. Under reasonable extrapolation assumptions, the proposed scheme applies to any Quantum Computing hardware, does not require modeling the device’s noise sources, and can be used when classical simulations are unavailable, e.g. in the Quantum Supremacy regime.

arxiv情報

著者 Nicolo Colombo
発行日 2025-04-09 16:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph, stat.ML | Assumption-free fidelity bounds for hardware noise characterization はコメントを受け付けていません

FAME: Introducing Fuzzy Additive Models for Explainable AI

要約

この研究では、説明可能な人工知能(XAI)のソリューションとして説明可能性(名声)を備えたファジー添加剤モデル(FAM)とFAMを紹介します。
ファミリは3つの層で構成されています。(1)入力空間を圧縮する投影層、(2)SFLSが追加インデックスモデル内のサブネットワークとして機能する単一の入力出力ファジーロジックシステム(SFLS)の上に構築されたファジーレイヤー、および(3)アグリゲーションレイヤー。
このアーキテクチャは、SFLの解釈可能性を統合します。SFLは、人間の理解可能な場合に使用されるルールを使用し、入出力関係の説明可能性を統合し、添加剤モデル構造を活用します。
さらに、SFLを使用すると、本質的に次元の呪いやルール爆発などの問題に対処します。
解釈可能性をさらに向上させるために、FAM内の先行空間を彫刻し、それを名声に変える方法を提案します。
名声が、より少ないアクティブなルールで入出力関係を捉え、したがって明確さを改善することを示しています。
Famファミリーを学ぶために、深い学習フレームワークを提示します。
提示された比較結果を通じて、解釈可能性を維持しながらモデルの複雑さを減らし、Xaiにとって貴重なツールとして配置するという名声の有望な可能性を示します。

要約(オリジナル)

In this study, we introduce the Fuzzy Additive Model (FAM) and FAM with Explainability (FAME) as a solution for Explainable Artificial Intelligence (XAI). The family consists of three layers: (1) a Projection Layer that compresses the input space, (2) a Fuzzy Layer built upon Single Input-Single Output Fuzzy Logic Systems (SFLS), where SFLS functions as subnetworks within an additive index model, and (3) an Aggregation Layer. This architecture integrates the interpretability of SFLS, which uses human-understandable if-then rules, with the explainability of input-output relationships, leveraging the additive model structure. Furthermore, using SFLS inherently addresses issues such as the curse of dimensionality and rule explosion. To further improve interpretability, we propose a method for sculpting antecedent space within FAM, transforming it into FAME. We show that FAME captures the input-output relationships with fewer active rules, thus improving clarity. To learn the FAM family, we present a deep learning framework. Through the presented comparative results, we demonstrate the promising potential of FAME in reducing model complexity while retaining interpretability, positioning it as a valuable tool for XAI.

arxiv情報

著者 Omer Bahadir Gokmen,Yusuf Guven,Tufan Kumbasar
発行日 2025-04-09 16:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | FAME: Introducing Fuzzy Additive Models for Explainable AI はコメントを受け付けていません

Adapting GT2-FLS for Uncertainty Quantification: A Blueprint Calibration Strategy

要約

不確実性の定量化(UQ)は、ハイステークスアプリケーションで信頼できるディープラーニング(DL)モデルを展開するために重要です。
最近、一般的なタイプ2ファジーロジックシステム(GT2-FLSS)がUQに効果的であることが証明されており、不確実性をキャプチャする予測間隔(PI)を提供しています。
ただし、既存の方法は、新しいカバレッジレベル$(\ phi_d)$のPIを生成するには通常、モデルを再訓練する必要があるため、計算効率と適応性に苦労していることがよくあります。
さらに、UQの条件分布全体を直接推定する方法は計算高価であり、実際のシナリオでのスケーラビリティを制限します。
この研究では、GT2-FLSSの青写真キャリブレーション戦略を提案し、再訓練なしで任意の任意の$ \ phi_d $への効率的な適応を可能にすることにより、これらの課題に対処します。
$ \ alpha $ -planeタイプの削減されたセットと不確実性カバレッジの関係を調査することにより、2つのキャリブレーション方法を開発します:ルックアップテーブルベースのアプローチとデリバティブフリーの最適化アルゴリズム。
これらの方法により、GT2-FLSSは正確で信頼性の高いPIを生成しながら、計算オーバーヘッドを大幅に削減できます。
高次元データセットの実験結果は、キャリブレーションされたGT2-FLSがUQで優れたパフォーマンスを達成することを示しており、スケーラブルで実用的なアプリケーションの可能性を強調しています。

要約(オリジナル)

Uncertainty Quantification (UQ) is crucial for deploying reliable Deep Learning (DL) models in high-stakes applications. Recently, General Type-2 Fuzzy Logic Systems (GT2-FLSs) have been proven to be effective for UQ, offering Prediction Intervals (PIs) to capture uncertainty. However, existing methods often struggle with computational efficiency and adaptability, as generating PIs for new coverage levels $(\phi_d)$ typically requires retraining the model. Moreover, methods that directly estimate the entire conditional distribution for UQ are computationally expensive, limiting their scalability in real-world scenarios. This study addresses these challenges by proposing a blueprint calibration strategy for GT2-FLSs, enabling efficient adaptation to any desired $\phi_d$ without retraining. By exploring the relationship between $\alpha$-plane type reduced sets and uncertainty coverage, we develop two calibration methods: a lookup table-based approach and a derivative-free optimization algorithm. These methods allow GT2-FLSs to produce accurate and reliable PIs while significantly reducing computational overhead. Experimental results on high-dimensional datasets demonstrate that the calibrated GT2-FLS achieves superior performance in UQ, highlighting its potential for scalable and practical applications.

arxiv情報

著者 Yusuf Guven,Tufan Kumbasar
発行日 2025-04-09 16:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Adapting GT2-FLS for Uncertainty Quantification: A Blueprint Calibration Strategy はコメントを受け付けていません

Using ML filters to help automated vulnerability repairs: when it helps and when it doesn’t

要約

[コンテキスト:]自動プログラム修復における候補パッチの受け入れは、通常、オラクルのテストに基づいています。
テストには通常、アプリケーションを構築するための費用のかかるプロセスが必要ですが、MLモデルを使用してパッチをすばやく分類できるため、肯定的なフィードバックループでより多くの候補パッチを生成できるようにします。
[問題:]モデルの予測が信頼できない場合(脆弱性検出のように)、テストに基づいてより信頼性の高いオラクルをほとんど置き換えることができません。
[新しいアイデア:] MLモデルを、テストに基づいて従来のフィルターの前に置かれた候補パッチの予備フィルターとして使用することを提案します。
[予備的な結果:]そのような操作を実際に意味のあるMLアルゴリズムの精度とリコールに関するいくつかの理論的境界を特定します。
これらの境界と文献に掲載された結果により、テストに基づいてAPR4vulnなどの従来のAVRパイプラインよりも、最先端の脆弱性検出器がどれほど速く効果的であるかを計算します。

要約(オリジナル)

[Context:] The acceptance of candidate patches in automated program repair has been typically based on testing oracles. Testing requires typically a costly process of building the application while ML models can be used to quickly classify patches, thus allowing more candidate patches to be generated in a positive feedback loop. [Problem:] If the model predictions are unreliable (as in vulnerability detection) they can hardly replace the more reliable oracles based on testing. [New Idea:] We propose to use an ML model as a preliminary filter of candidate patches which is put in front of a traditional filter based on testing. [Preliminary Results:] We identify some theoretical bounds on the precision and recall of the ML algorithm that makes such operation meaningful in practice. With these bounds and the results published in the literature, we calculate how fast some of state-of-the art vulnerability detectors must be to be more effective over a traditional AVR pipeline such as APR4Vuln based just on testing.

arxiv情報

著者 Maria Camporese,Fabio Massacci
発行日 2025-04-09 16:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SE | Using ML filters to help automated vulnerability repairs: when it helps and when it doesn’t はコメントを受け付けていません