Diffusion-Based Symbolic Regression

要約

拡散は、生成モデリングの強力なフレームワークとして浮上しており、画像やオーディオ合成などのアプリケーションで顕著な成功を収めています。
この進捗状況に啓発された私たちは、シンボリック回帰のための新しい拡散ベースのアプローチを提案します。
ランダムなマスクベースの拡散と除去プロセスを構築して、多様で高品質の方程式を生成します。
この生成プロセスをトークンワイズグループの相対ポリシー最適化(GRPO)メソッドと統合して、特定の測定データセットで効率的な強化学習を実施します。
さらに、トップパフォーマンスの候補者のプールを拡大するために、長期的なリスク探索ポリシーを導入し、パフォーマンスをさらに向上させます。
広範な実験とアブレーション研究により、私たちのアプローチの有効性が実証されています。

要約(オリジナル)

Diffusion has emerged as a powerful framework for generative modeling, achieving remarkable success in applications such as image and audio synthesis. Enlightened by this progress, we propose a novel diffusion-based approach for symbolic regression. We construct a random mask-based diffusion and denoising process to generate diverse and high-quality equations. We integrate this generative processes with a token-wise Group Relative Policy Optimization (GRPO) method to conduct efficient reinforcement learning on the given measurement dataset. In addition, we introduce a long short-term risk-seeking policy to expand the pool of top-performing candidates, further enhancing performance. Extensive experiments and ablation studies have demonstrated the effectiveness of our approach.

arxiv情報

著者 Zachary Bastiani,Robert M. Kirby,Jacob Hochhalter,Shandian Zhe
発行日 2025-05-30 16:39:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Diffusion-Based Symbolic Regression はコメントを受け付けていません

EVA-MILP: Towards Standardized Evaluation of MILP Instance Generation

要約

混合整数線形プログラミング(MILP)は、複雑な意思決定の問題を解決するための基本です。
多様な最適化データセットに対する機械学習の需要と静的ベンチマークの制限によって駆動されるMILPインスタンス生成方法の増殖は、標準化された評価手法を大幅に上回っています。
その結果、合成MILPインスタンスの忠実度と有用性を評価することは、依然として重要で多面的な課題です。
このペーパーでは、MILPインスタンス生成方法の体系的かつ客観的な評価のために設計された包括的なベンチマークフレームワークを紹介します。
私たちのフレームワークは、統一された拡張可能な方法論を提供し、重要な次元にわたってインスタンスの品質を評価します:数学的妥当性、構造的類似性、計算硬度、および下流の機械学習タスクの有用性。
主要な革新は、ソルバー内部機能の詳細な分析です。特に、ルートノードギャップ、ヒューリスティックな成功率、平面使用の削減などの主要なソルバー出力の分布を比較することで、ソルバーの動的ソリューション行動を「専門家の評価」として活用して、微妙な計算の関連性を明らかにします。
明確に定義されたソルバーに依存しないソルバー依存のメトリックを備えた構造化されたアプローチを提供することにより、当社のベンチマークは、多様な生成技術の堅牢な比較を促進し、高品質のインスタンスジェネレーターの開発を促進し、最終的に合成MILPデータに依存する研究の信頼性を高めることを目的としています。
インスタンスセットの忠実度を体系的に比較する際のフレームワークの有効性は、現代の生成モデルを使用して実証されています。

要約(オリジナル)

Mixed-Integer Linear Programming (MILP) is fundamental to solving complex decision-making problems. The proliferation of MILP instance generation methods, driven by machine learning’s demand for diverse optimization datasets and the limitations of static benchmarks, has significantly outpaced standardized evaluation techniques. Consequently, assessing the fidelity and utility of synthetic MILP instances remains a critical, multifaceted challenge. This paper introduces a comprehensive benchmark framework designed for the systematic and objective evaluation of MILP instance generation methods. Our framework provides a unified and extensible methodology, assessing instance quality across crucial dimensions: mathematical validity, structural similarity, computational hardness, and utility in downstream machine learning tasks. A key innovation is its in-depth analysis of solver-internal features — particularly by comparing distributions of key solver outputs including root node gap, heuristic success rates, and cut plane usage — leveraging the solver’s dynamic solution behavior as an `expert assessment’ to reveal nuanced computational resemblances. By offering a structured approach with clearly defined solver-independent and solver-dependent metrics, our benchmark aims to facilitate robust comparisons among diverse generation techniques, spur the development of higher-quality instance generators, and ultimately enhance the reliability of research reliant on synthetic MILP data. The framework’s effectiveness in systematically comparing the fidelity of instance sets is demonstrated using contemporary generative models.

arxiv情報

著者 Yidong Luo,Chenguang Wang,Jiahao Yang,Fanzeng Xia,Tianshu Yu
発行日 2025-05-30 16:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | EVA-MILP: Towards Standardized Evaluation of MILP Instance Generation はコメントを受け付けていません

QGAN-based data augmentation for hybrid quantum-classical neural networks

要約

量子ニューラルネットワークは、より速く収束し、古典モデルよりも高い精度を達成します。
ただし、量子機械学習におけるデータ増強は未定のままです。
データの希少性に取り組むために、量子生成敵のネットワーク(QGAN)をハイブリッド量子クラシックニューラルネットワーク(HQCNNS)と統合して、増強フレームワークを開発します。
2つの戦略を提案します。HQCNN全体のデータ処理と分類を強化する一般的なアプローチと、特定のデータカテゴリでHQCNNのパフォーマンスに合わせて調整されたサンプルを動的に生成し、複雑なデータセットから学習する能力を向上させるカスタマイズされた戦略です。
MNISTデータセットでのシミュレーション実験は、QGANが従来のデータ増強方法と古典的なGANを上回ることを示しています。
ベースラインDCGANと比較して、QGANは、効率と有効性のバランスをとるパラメーターの半分で同等のパフォーマンスを達成します。
これは、QGANがモデルを簡素化し、高品質のデータを生成し、HQCNNの精度とパフォーマンスを向上させることができることを示唆しています。
これらの調査結果は、機械学習に量子データ増強技術を適用する方法を開きます。

要約(オリジナル)

Quantum neural networks converge faster and achieve higher accuracy than classical models. However, data augmentation in quantum machine learning remains underexplored. To tackle data scarcity, we integrate quantum generative adversarial networks (QGANs) with hybrid quantum-classical neural networks (HQCNNs) to develop an augmentation framework. We propose two strategies: a general approach to enhance data processing and classification across HQCNNs, and a customized strategy that dynamically generates samples tailored to the HQCNN’s performance on specific data categories, improving its ability to learn from complex datasets. Simulation experiments on the MNIST dataset demonstrate that QGAN outperforms traditional data augmentation methods and classical GANs. Compared to baseline DCGAN, QGAN achieves comparable performance with half the parameters, balancing efficiency and effectiveness. This suggests that QGANs can simplify models and generate high-quality data, enhancing HQCNN accuracy and performance. These findings pave the way for applying quantum data augmentation techniques in machine learning.

arxiv情報

著者 Run-Ze He,Jun-Jian Su,Su-Juan Qin,Zheng-Ping Jin,Fei Gao
発行日 2025-05-30 16:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph | QGAN-based data augmentation for hybrid quantum-classical neural networks はコメントを受け付けていません

ByzFL: Research Framework for Robust Federated Learning

要約

堅牢なフェデレートラーニング(FL)アルゴリズムを開発およびベンチマークするためのオープンソースPythonライブラリであるBYZFLを紹介します。
BYZFLは、最先端の堅牢なアグリゲーターの実装、構成可能な攻撃のスイート、および異種のデータ分布、複数のトレーニングアルゴリズム、逆境の脅威モデルなど、さまざまなFLシナリオをシミュレートするためのツールを含む、統一された拡張可能なフレームワークを提供します。
ライブラリは、単一のJSONベースの構成ファイルを介して体系的な実験を可能にし、結果視覚化のための組み込みユーティリティが含まれています。
PytorchテンソルとNumpyアレイと互換性があるBYZFLは、堅牢なFLソリューションの再現可能な研究と迅速なプロトタイピングを促進するように設計されています。
BYZFLはhttps://byzfl.epfl.ch/で入手でき、ソースコードはgithub:https://github.com/lpd-epfl/byzflでホストされています。

要約(オリジナル)

We present ByzFL, an open-source Python library for developing and benchmarking robust federated learning (FL) algorithms. ByzFL provides a unified and extensible framework that includes implementations of state-of-the-art robust aggregators, a suite of configurable attacks, and tools for simulating a variety of FL scenarios, including heterogeneous data distributions, multiple training algorithms, and adversarial threat models. The library enables systematic experimentation via a single JSON-based configuration file and includes built-in utilities for result visualization. Compatible with PyTorch tensors and NumPy arrays, ByzFL is designed to facilitate reproducible research and rapid prototyping of robust FL solutions. ByzFL is available at https://byzfl.epfl.ch/, with source code hosted on GitHub: https://github.com/LPD-EPFL/byzfl.

arxiv情報

著者 Marc González,Rachid Guerraoui,Rafael Pinot,Geovani Rizk,John Stephan,François Taïani
発行日 2025-05-30 17:08:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ByzFL: Research Framework for Robust Federated Learning はコメントを受け付けていません

Otter: Generating Tests from Issues to Validate SWE Patches

要約

既存のコードからテストを生成することには多くの作業がありましたが、問題からテストを生成する作業は限られています。
正しいテストでは、問題を解決するコードパッチを検証する必要があります。
このペーパーでは、そのコードパッチがまだ存在しないシナリオに焦点を当てています。
そうすることで、2つの主要なユースケースがサポートされます。
まず、TDD(テスト駆動型開発)をサポートします。これは、「テスト最初に、後でコードを書き込む」という分野で、人間のソフトウェアエンジニアにとって十分に文書化された利点があります。
第二に、問題を解決するためのコードパッチを生成するSWE(ソフトウェアエンジニアリング)エージェントも検証します。
このペーパーでは、問題からテストを生成するためのベンチマークであるTDDベンチ検証と、このタスクのLLMベースのソリューションであるOtterを紹介します。
Otterは、ルールベースの分析でLLMを増強して出力を確認および修復し、新しい自己反射アクションプランナーを導入します。
実験は、問題からパッチを生成するシステムを強化することに加えて、問題からテストを生成するための最先端のシステムを上回るカワウソを示しています。
Otterは、開発者が問題を解決するのに生産性を高め、より堅牢でテストされたコードにつながるのに役立つことを願っています。

要約(オリジナル)

While there has been plenty of work on generating tests from existing code, there has been limited work on generating tests from issues. A correct test must validate the code patch that resolves the issue. This paper focuses on the scenario where that code patch does not yet exist. Doing so supports two major use-cases. First, it supports TDD (test-driven development), the discipline of ‘test first, write code later’ that has well-documented benefits for human software engineers. Second, it also validates SWE (software engineering) agents, which generate code patches for resolving issues. This paper introduces TDD-Bench-Verified, a benchmark for generating tests from issues, and Otter, an LLM-based solution for this task. Otter augments LLMs with rule-based analysis to check and repair their outputs, and introduces a novel self-reflective action planner. Experiments show Otter outperforming state-of-the-art systems for generating tests from issues, in addition to enhancing systems that generate patches from issues. We hope that Otter helps make developers more productive at resolving issues and leads to more robust, well-tested code.

arxiv情報

著者 Toufique Ahmed,Jatin Ganhotra,Rangeet Pan,Avraham Shinnar,Saurabh Sinha,Martin Hirzel
発行日 2025-05-30 17:25:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE | Otter: Generating Tests from Issues to Validate SWE Patches はコメントを受け付けていません

Mirror Online Conformal Prediction with Intermittent Feedback

要約

オンラインのコンフォーマル予測により、そのパフォーマンスに関するフィードバックを使用して、事前に訓練された人工知能モデルのランタイムキャリブレーションが可能になります。
キャリブレーションは、長期的なカバレッジ保証を確保するために、オンラインルールを介して更新されるセット予測によって達成されます。
最近の研究では、事前知識をキャリブレーションプロセスに組み込むことの利点が実証されていますが、これは、カバレッジ保証を、分位の損失に基づく具体的な後悔の保証に置き換えるための犠牲を払っています。
この作業では、断続的なミラーオンラインコンフォーマル予測(IM-OCP)を紹介します。これは、長期的なカバレッジを維持し、線形下の後悔を達成しながら、事前知識を統合する新しいランタイムキャリブレーションフレームワークです。
IM-OCPは、メモリの複雑さを最小限に抑えたクローズドフォームの更新を備えており、潜在的に断続的なフィードバックの下で動作するように設計されています。

要約(オリジナル)

Online conformal prediction enables the runtime calibration of a pre-trained artificial intelligence model using feedback on its performance. Calibration is achieved through set predictions that are updated via online rules so as to ensure long-term coverage guarantees. While recent research has demonstrated the benefits of incorporating prior knowledge into the calibration process, this has come at the cost of replacing coverage guarantees with less tangible regret guarantees based on the quantile loss. This work introduces intermittent mirror online conformal prediction (IM-OCP), a novel runtime calibration framework that integrates prior knowledge, while maintaining long-term coverage and achieving sub-linear regret. IM-OCP features closed-form updates with minimal memory complexity, and is designed to operate under potentially intermittent feedback.

arxiv情報

著者 Bowen Wang,Matteo Zecchin,Osvaldo Simeone
発行日 2025-05-30 17:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Mirror Online Conformal Prediction with Intermittent Feedback はコメントを受け付けていません

Timing is important: Risk-aware Fund Allocation based on Time-Series Forecasting

要約

ファンドの配分は、金融領域でますます重要な問題でした。
実際には、特定の将来の期間内に特定の資産を購入するために資金を割り当てることを目指しています。
予測のみや予測 – 最適化アプローチなどの素朴なソリューションは、目標の不一致に苦しんでいます。
さらに、SOTA時系列予測モデルの導入は、予測された結果に追加の不確実性を必然的に導入します。
上記の両方の問題を解決するために、リスク認識の時系列の予測と割り当て(RTS-PNO)フレームワークを導入します。これは、予測モデルに事前の仮定を保持していません。
このようなフレームワークには、3つの機能が含まれています。(i)客観的なアライメント測定によるエンドツーエンドのトレーニング、(ii)適応予測不確実性キャリブレーション、および(iii)予測モデルに対する不可知論者。
RTS-PNOの評価は、オンラインとオフラインの両方の実験で行われます。
オフラインの実験では、3つのカテゴリの財務アプリケーションからの8つのデータセットが使用されます:通貨、株式、および暗号。
RTS-PNOは、他の競争のベースラインよりも一貫して優れています。
オンライン実験は、FIT、Tencent、Tencentの国境を越えた支払い事業で実施され、製品ラインアプローチと比較した場合、後悔の8.4 \%の減少が目撃されます。
オフライン実験のコードは、https://github.com/fuyuanlyu/rts-pnoで入手できます。

要約(オリジナル)

Fund allocation has been an increasingly important problem in the financial domain. In reality, we aim to allocate the funds to buy certain assets within a certain future period. Naive solutions such as prediction-only or Predict-then-Optimize approaches suffer from goal mismatch. Additionally, the introduction of the SOTA time series forecasting model inevitably introduces additional uncertainty in the predicted result. To solve both problems mentioned above, we introduce a Risk-aware Time-Series Predict-and-Allocate (RTS-PnO) framework, which holds no prior assumption on the forecasting models. Such a framework contains three features: (i) end-to-end training with objective alignment measurement, (ii) adaptive forecasting uncertainty calibration, and (iii) agnostic towards forecasting models. The evaluation of RTS-PnO is conducted over both online and offline experiments. For offline experiments, eight datasets from three categories of financial applications are used: Currency, Stock, and Cryptos. RTS-PnO consistently outperforms other competitive baselines. The online experiment is conducted on the Cross-Border Payment business at FiT, Tencent, and an 8.4\% decrease in regret is witnessed when compared with the product-line approach. The code for the offline experiment is available at https://github.com/fuyuanlyu/RTS-PnO.

arxiv情報

著者 Fuyuan Lyu,Linfeng Du,Yunpeng Weng,Qiufang Ying,Zhiyan Xu,Wen Zou,Haolun Wu,Xiuqiang He,Xing Tang
発行日 2025-05-30 17:36:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Timing is important: Risk-aware Fund Allocation based on Time-Series Forecasting はコメントを受け付けていません

Cascading Adversarial Bias from Injection to Distillation in Language Models

要約

モデルの蒸留は、より大きなシステム機能を保持する、より小さく展開可能な言語モデルを作成するために不可欠になっています。
しかし、広範囲にわたる展開は、敵対的な操作に対する回復力に関する懸念を引き起こします。
このペーパーでは、蒸留モデルの脆弱性を、トレーニング中の偏ったコンテンツの敵対的な注入に対する脆弱性を調査します。
敵は、最小限のデータ中毒を通じて教師モデルに微妙なバイアスを注入することができることを実証します。これは、学生モデルに伝播し、大幅に増幅されるようになります。
2つの伝播モードを提案します。バイアスが複数のタスクに影響するターゲット伝播とターゲット伝播を提案し、他の場所で通常の動作を維持しながら特定のタスクに焦点を当てます。
25個の中毒サンプル(0.25%中毒率)のみで、生徒モデルはターゲットシナリオで76.9%の時間の偏った応答を生成します – 教師モデルでは69.4%を超えています。
魅力のない伝播の場合、目に見えないタスクの学生モデルでは、敵対的なバイアスがより頻繁に頻繁に表示されます。
6つのバイアスタイプ(ターゲット広告、フィッシングリンク、物語の操作、安全でないコーディングプラクティス)、さまざまな蒸留方法、テキストとコード生成にまたがるさまざまなモダリティの調査結果を検証します。
私たちの評価は、これらの攻撃に対して、現在の防御 – 困惑フィルタリング、バイアス検出システム、LLMベースの自動車用フレームワークの欠点を明らかにしています。
結果は、蒸留モデルの重大なセキュリティの脆弱性を明らかにし、専門的な保護手段の必要性を強調しています。
効果的な敵対的バイアス緩和戦略を構築するための実用的な設計原則を提案します。

要約(オリジナル)

Model distillation has become essential for creating smaller, deployable language models that retain larger system capabilities. However, widespread deployment raises concerns about resilience to adversarial manipulation. This paper investigates vulnerability of distilled models to adversarial injection of biased content during training. We demonstrate that adversaries can inject subtle biases into teacher models through minimal data poisoning, which propagates to student models and becomes significantly amplified. We propose two propagation modes: Untargeted Propagation, where bias affects multiple tasks, and Targeted Propagation, focusing on specific tasks while maintaining normal behavior elsewhere. With only 25 poisoned samples (0.25% poisoning rate), student models generate biased responses 76.9% of the time in targeted scenarios – higher than 69.4% in teacher models. For untargeted propagation, adversarial bias appears 6x-29x more frequently in student models on unseen tasks. We validate findings across six bias types (targeted advertisements, phishing links, narrative manipulations, insecure coding practices), various distillation methods, and different modalities spanning text and code generation. Our evaluation reveals shortcomings in current defenses – perplexity filtering, bias detection systems, and LLM-based autorater frameworks – against these attacks. Results expose significant security vulnerabilities in distilled models, highlighting need for specialized safeguards. We propose practical design principles for building effective adversarial bias mitigation strategies.

arxiv情報

著者 Harsh Chaudhari,Jamie Hayes,Matthew Jagielski,Ilia Shumailov,Milad Nasr,Alina Oprea
発行日 2025-05-30 17:41:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Cascading Adversarial Bias from Injection to Distillation in Language Models はコメントを受け付けていません

From Invariant Representations to Invariant Data: Provable Robustness to Spurious Correlations via Noisy Counterfactual Matching

要約

偽の相関は、新しい環境でモデルのパフォーマンスを低下させる可能性があります。
以前の因果関係にヒントを得た作品は、不変表現(IRMなど)を学ぶことを目的としていますが、通常は経験的リスク最小化(ERM)を下回ります。
最近の代替案は、テスト時間データを活用することで堅牢性を改善していますが、そのようなデータは実際には利用できない場合があります。
これらの問題に対処するために、不変のデータペアを活用して、最適に堅牢な分類器と同じ予測を持つサンプルのペアを活用することにより、データ中心のアプローチを採用します。
特定の反事実的ペアがこの不変性プロパティを自然に満たし、理想的なケースに騒々しいペアの小さなセットであっても、強化された堅牢性のために不変ペアを活用するための単純な制約ベースの方法であるノイズの多い反事実的マッチング(NCM)を導入することを証明します。
線形因果モデルの場合、テストドメインエラーがドメイン内エラーと、反事実の多様性と品質に依存する用語によって上限になる可能性があることを証明します。
合成データセットで検証し、実世界のベンチマークで、前処理されたバックボーンでの線形プロービングが堅牢性を向上させることを実証します。

要約(オリジナル)

Spurious correlations can cause model performance to degrade in new environments. Prior causality-inspired works aim to learn invariant representations (e.g., IRM) but typically underperform empirical risk minimization (ERM). Recent alternatives improve robustness by leveraging test-time data, but such data may be unavailable in practice. To address these issues, we take a data-centric approach by leveraging invariant data pairs, pairs of samples that would have the same prediction with the optimally robust classifier. We prove that certain counterfactual pairs will naturally satisfy this invariance property and introduce noisy counterfactual matching (NCM), a simple constraint-based method for leveraging invariant pairs for enhanced robustness, even with a small set of noisy pairs-in the ideal case, each pair can eliminate one spurious feature. For linear causal models, we prove that the test domain error can be upper bounded by the in-domain error and a term that depends on the counterfactuals’ diversity and quality. We validate on a synthetic dataset and demonstrate on real-world benchmarks that linear probing on a pretrained backbone improves robustness.

arxiv情報

著者 Ruqi Bai,Yao Ji,Zeyu Zhou,David I. Inouye
発行日 2025-05-30 17:42:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | From Invariant Representations to Invariant Data: Provable Robustness to Spurious Correlations via Noisy Counterfactual Matching はコメントを受け付けていません

Statistical mechanics of extensive-width Bayesian neural networks near interpolation

要約

30年間、統計力学はニューラルネットワークを分析するためのフレームワークを提供してきました。
ただし、理論的に扱いやすいモデル、例えば、パーセプトロン、ランダムな特徴モデル、カーネルマシン、またはニューロンの少ないマルチインデックスモデルと委員会マシンは、アプリケーションで使用されているモデルと比較して単純なままでした。
このペーパーでは、2層の完全に接続されたネットワークの監視された学習の統計的物理学的分析と、一般的な重量分布と活性化関数を使用することにより、実用的なネットワークとその理論的理解の間のギャップを減らすのに役立ちます。
これにより、機能学習が発生していないが、狭いものや固定内重量よりも表現力豊かで、無限に広いネットワークよりも現実的になります。
教師と学生のシナリオでのベイズ最適な学習、つまり、同じアーキテクチャを持つ別のネットワークによって生成されたデータセットを使用して焦点を当てています。
補間を中心に動作します。ここでは、トレーニング可能なパラメーターとデータの数が匹敵し、機能学習が出現します。
私たちの分析は、データの数が増えるにつれて、さまざまな学習移行を伴う豊富な現象学を明らかにします。
特に、特徴がより強く(つ​​まり、ターゲットの隠されたニューロン)が観察された応答に貢献するほど、それらを学習するために必要なデータは少なくなります。
さらに、データが不足している場合、モデルは、重量を教師の重みと合わせて「専門化」するのではなく、教師の重みの非線形の組み合わせのみを学習します。
専門化は、十分なデータが利用可能になった場合にのみ発生しますが、おそらく統計的なコンパートルからコンパート化されたギャップのために、実用的なトレーニングアルゴリズムで見つけるのは難しい場合があります。

要約(オリジナル)

For three decades statistical mechanics has been providing a framework to analyse neural networks. However, the theoretically tractable models, e.g., perceptrons, random features models and kernel machines, or multi-index models and committee machines with few neurons, remained simple compared to those used in applications. In this paper we help reducing the gap between practical networks and their theoretical understanding through a statistical physics analysis of the supervised learning of a two-layer fully connected network with generic weight distribution and activation function, whose hidden layer is large but remains proportional to the inputs dimension. This makes it more realistic than infinitely wide networks where no feature learning occurs, but also more expressive than narrow ones or with fixed inner weights. We focus on the Bayes-optimal learning in the teacher-student scenario, i.e., with a dataset generated by another network with the same architecture. We operate around interpolation, where the number of trainable parameters and of data are comparable and feature learning emerges. Our analysis uncovers a rich phenomenology with various learning transitions as the number of data increases. In particular, the more strongly the features (i.e., hidden neurons of the target) contribute to the observed responses, the less data is needed to learn them. Moreover, when the data is scarce, the model only learns non-linear combinations of the teacher weights, rather than ‘specialising’ by aligning its weights with the teacher’s. Specialisation occurs only when enough data becomes available, but it can be hard to find for practical training algorithms, possibly due to statistical-to-computational~gaps.

arxiv情報

著者 Jean Barbier,Francesco Camilli,Minh-Toan Nguyen,Mauro Pastore,Rudy Skerk
発行日 2025-05-30 17:46:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.IT, cs.LG, math.IT, stat.ML | Statistical mechanics of extensive-width Bayesian neural networks near interpolation はコメントを受け付けていません