Port-Hamiltonian Architectural Bias for Long-Range Propagation in Deep Graph Networks

要約

グラフ内の情報拡散のダイナミクスは、特に長距離伝播を検討する場合、グラフ表現学習に大きな影響を与える重要なオープンな問題です。
これには、神経の流れ全体の情報の伝播と散逸の程度を制御および調節する原則的なアプローチが必要です。
これにより動機付けられて、ハミルトニアン動的システムの保存法則を築くことにより、グラフの神経情報の流れをモデル化する新しいフレームワークであるハミルトニアンディープグラフネットワーク(ポート)を紹介します。
単一の理論的および実用的なフレームワークの下で、非ディシパニックな長距離伝播と非保守的な動作の両方で調整し、機械システムからツールを導入して、2つの成分間の平衡を測定します。
私たちのアプローチは、一般的なメッセージ通過アーキテクチャに適用でき、時間内に情報保存に関する理論的保証を提供します。
経験的な結果は、長距離ベンチマークでの最先端のパフォーマンスに単純なグラフの畳み込みアーキテクチャをプッシュする際のポートハミルトニアンスキームの有効性を証明します。

要約(オリジナル)

The dynamics of information diffusion within graphs is a critical open issue that heavily influences graph representation learning, especially when considering long-range propagation. This calls for principled approaches that control and regulate the degree of propagation and dissipation of information throughout the neural flow. Motivated by this, we introduce (port-)Hamiltonian Deep Graph Networks, a novel framework that models neural information flow in graphs by building on the laws of conservation of Hamiltonian dynamical systems. We reconcile under a single theoretical and practical framework both non-dissipative long-range propagation and non-conservative behaviors, introducing tools from mechanical systems to gauge the equilibrium between the two components. Our approach can be applied to general message-passing architectures, and it provides theoretical guarantees on information conservation in time. Empirical results prove the effectiveness of our port-Hamiltonian scheme in pushing simple graph convolutional architectures to state-of-the-art performance in long-range benchmarks.

arxiv情報

著者 Simon Heilig,Alessio Gravina,Alessandro Trenta,Claudio Gallicchio,Davide Bacciu
発行日 2025-02-13 16:32:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | Port-Hamiltonian Architectural Bias for Long-Range Propagation in Deep Graph Networks はコメントを受け付けていません

Optimism in the Face of Ambiguity Principle for Multi-Armed Bandits

要約

フォロー・ザ・レギュラー化されたリーダー(FTRL)アルゴリズムは、多くの場合、敵対的および確率的盗賊の問題に対して最適な後悔を享受し、合理化された分析を可能にします。
それにもかかわらず、FTRLアルゴリズムは、すべての反復における最適化問題の解決を必要とするため、計算的に困難です。
対照的に、フォロー・ザ・パルター・リーダー(FTPL)アルゴリズムは、武器の報酬の推定値を摂動することにより計算効率を達成しますが、後悔の分析は面倒です。
敵対的および確率的マルチアライム盗賊の両方に最適なポリシーを生成する新しいFTPLアルゴリズムを提案します。
FTRLと同様に、私たちのアルゴリズムは統一された後悔分析を認め、FTPLと同様に、計算コストが低くなります。
\ textit {既知の}分布に準拠した独立した添加剤の妨害に依存する既存のFTPLアルゴリズムとは異なり、特定のセットに属することが知られている\ textit {Amviguous}分布によって支配された妨害を可能にし、楽観主義の原則を提案します。
あいまいさの顔。
その結果、我々のフレームワークは既存のFTPLアルゴリズムを一般化します。
また、現在のFTPLメソッドでは不可能であると思われるいくつかの最適なケースを含む、特別なケースとして広範なFTRLメソッドをカプセル化します。
最後に、離散選択理論の手法を使用して、楽観的なアームサンプリング確率を計算するための効率的な二等分アルゴリズムを考案します。
このアルゴリズムは、すべての反復で最適化の問題を解決する標準のFTRLアルゴリズムよりも最大$ 10^4 $倍高速です。
私たちの結果は、既存の推測を解決するだけでなく、FTRLをFTPLにマッピングすることにより、摂動の影響に関する新しい洞察を提供します。

要約(オリジナル)

Follow-The-Regularized-Leader (FTRL) algorithms often enjoy optimal regret for adversarial as well as stochastic bandit problems and allow for a streamlined analysis. Nonetheless, FTRL algorithms require the solution of an optimization problem in every iteration and are thus computationally challenging. In contrast, Follow-The-Perturbed-Leader (FTPL) algorithms achieve computational efficiency by perturbing the estimates of the rewards of the arms, but their regret analysis is cumbersome. We propose a new FTPL algorithm that generates optimal policies for both adversarial and stochastic multi-armed bandits. Like FTRL, our algorithm admits a unified regret analysis, and similar to FTPL, it offers low computational costs. Unlike existing FTPL algorithms that rely on independent additive disturbances governed by a \textit{known} distribution, we allow for disturbances governed by an \textit{ambiguous} distribution that is only known to belong to a given set and propose a principle of optimism in the face of ambiguity. Consequently, our framework generalizes existing FTPL algorithms. It also encapsulates a broad range of FTRL methods as special cases, including several optimal ones, which appears to be impossible with current FTPL methods. Finally, we use techniques from discrete choice theory to devise an efficient bisection algorithm for computing the optimistic arm sampling probabilities. This algorithm is up to $10^4$ times faster than standard FTRL algorithms that solve an optimization problem in every iteration. Our results not only settle existing conjectures but also provide new insights into the impact of perturbations by mapping FTRL to FTPL.

arxiv情報

著者 Mengmeng Li,Daniel Kuhn,Bahar Taşkesen
発行日 2025-02-13 16:35:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Optimism in the Face of Ambiguity Principle for Multi-Armed Bandits はコメントを受け付けていません

Learning to Predict Global Atrial Fibrillation Dynamics from Sparse Measurements

要約

心房細動のカテーテルアブレーション(AF)は、持続性AFでの成功が限られている1サイズのすべての治療で構成されています。
これは、AFのダイナミクスを、シーケンシャルコンタクトマッピングカテーテルによって提供される限られた解像度とカバレッジをマッピングできないためである可能性があり、パーソナライズされたターゲットアブレーションのための効果的な患者の表現型を防ぐことができます。
ここでは、スパース測定からグローバルなAFダイナミクスを再構築するグラフ再発性ニューラルネットワークモデルであるFIBMAPを紹介します。
51の非接触心房録音で訓練および検証されたFIBMAPは、10%の表面被覆率からATRIA全体のダイナミクスを再構築し、ベースラインメソッドと比較して210%低い平均絶対誤差と追跡位相特異点で数桁高いパフォーマンスを達成します。
FIBMAPの臨床的有用性は、実際の接触マッピング記録で実証されており、非接触マッピングに匹敵する再構成の忠実度を実現します。
FIBMAPの状態空間と患者固有のパラメーターは、電気栄養型AFの洞察を提供します。
FIBMAPを臨床診療に統合すると、パーソナライズされたAFケアが可能になり、結果が改善されます。

要約(オリジナル)

Catheter ablation of Atrial Fibrillation (AF) consists of a one-size-fits-all treatment with limited success in persistent AF. This may be due to our inability to map the dynamics of AF with the limited resolution and coverage provided by sequential contact mapping catheters, preventing effective patient phenotyping for personalised, targeted ablation. Here we introduce FibMap, a graph recurrent neural network model that reconstructs global AF dynamics from sparse measurements. Trained and validated on 51 non-contact whole atria recordings, FibMap reconstructs whole atria dynamics from 10% surface coverage, achieving a 210% lower mean absolute error and an order of magnitude higher performance in tracking phase singularities compared to baseline methods. Clinical utility of FibMap is demonstrated on real-world contact mapping recordings, achieving reconstruction fidelity comparable to non-contact mapping. FibMap’s state-spaces and patient-specific parameters offer insights for electrophenotyping AF. Integrating FibMap into clinical practice could enable personalised AF care and improve outcomes.

arxiv情報

著者 Alexander Jenkins,Andrea Cini,Joseph Barker,Alexander Sharp,Arunashis Sau,Varun Valentine,Srushti Valasang,Xinyang Li,Tom Wong,Timothy Betts,Danilo Mandic,Cesare Alippi,Fu Siong Ng
発行日 2025-02-13 16:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Learning to Predict Global Atrial Fibrillation Dynamics from Sparse Measurements はコメントを受け付けていません

Conformal Predictive Portfolio Selection

要約

この調査では、ポートフォリオリターンの予測モデルを使用したポートフォリオの選択を調べます。
ポートフォリオの選択は金融の基本的なタスクであり、この目標を達成するためにさまざまな方法が開発されています。
たとえば、平均分散アプローチは、アセットリターンの平均と分散の間のトレードオフのバランスをとることによりポートフォリオを構築しますが、分位ベースのアプローチは、尾のリスクを考慮することでポートフォリオを最適化します。
これらの方法は、多くの場合、予測モデルを使用して履歴データから推定された分布情報に依存しており、それぞれに独自の不確実性があります。
これに対処するために、\ emphomal {cppormal Predictive Portfolio Selection}(CPPS)と呼ばれるコンフォーマル予測を介して、予測ポートフォリオ選択のフレームワークを提案します。
当社のアプローチは、将来のポートフォリオのリターンを予測し、対応する予測間隔を計算し、これらの間隔に基づいて関心のあるポートフォリオを選択します。
このフレームワークは柔軟性があり、自己回帰(AR)モデル、ランダムフォレスト、ニューラルネットワークなど、幅広い予測モデルに対応できます。
CPPSフレームワークをARモデルに適用することにより、CPPSフレームワークの有効性を実証し、実証研究を通じてパフォーマンスを検証し、より単純な戦略と比較して優れたリターンを提供することを示します。

要約(オリジナル)

This study examines portfolio selection using predictive models for portfolio returns. Portfolio selection is a fundamental task in finance, and a variety of methods have been developed to achieve this goal. For instance, the mean-variance approach constructs portfolios by balancing the trade-off between the mean and variance of asset returns, while the quantile-based approach optimizes portfolios by considering tail risk. These methods often depend on distributional information estimated from historical data using predictive models, each of which carries its own uncertainty. To address this, we propose a framework for predictive portfolio selection via conformal prediction , called \emph{Conformal Predictive Portfolio Selection} (CPPS). Our approach forecasts future portfolio returns, computes the corresponding prediction intervals, and selects the portfolio of interest based on these intervals. The framework is flexible and can accommodate a wide range of predictive models, including autoregressive (AR) models, random forests, and neural networks. We demonstrate the effectiveness of the CPPS framework by applying it to an AR model and validate its performance through empirical studies, showing that it delivers superior returns compared to simpler strategies.

arxiv情報

著者 Masahiro Kato
発行日 2025-02-13 16:41:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, q-fin.PM | Conformal Predictive Portfolio Selection はコメントを受け付けていません

Assessing Generative AI value in a public sector context: evidence from a field experiment

要約

生成AI(GEN AI)の出現は、さまざまなタスクにわたって生産性を向上させるためにそれをどのように使用できるかを理解することに興味をそそられています。
公共部門の設定における複雑な知識ベースのタスクに対するGen AIのパフォーマンスへの影響に関する研究結果に追加されます。
事前に登録された実験では、ベースラインレベルのパフォーマンスを確立した後、ドキュメントの理解とデータ分析に関連する2種類の複合タスクの複雑な証拠が見つかります。
ドキュメントタスクの場合、GEN AIを使用した治療グループは、対照群と比較して、回答品質スコア(人間の評価者が判断)の17%改善とタスク完了時間の34%改善を示しました。
データタスクでは、GEN AI治療グループが品質スコアが12%減少し、対照群と比較して平均完了時間に有意差はないことがわかります。
これらの結果は、Gen AIの利点がタスクであり、潜在的に回答者に依存する可能性があることを示唆しています。
また、学んだフィールドノートとレッスン、および参加者との裁判後の調査やフィードバックワークショップからの補足的な洞察についても説明します。

要約(オリジナル)

The emergence of Generative AI (Gen AI) has motivated an interest in understanding how it could be used to enhance productivity across various tasks. We add to research results for the performance impact of Gen AI on complex knowledge-based tasks in a public sector setting. In a pre-registered experiment, after establishing a baseline level of performance, we find mixed evidence for two types of composite tasks related to document understanding and data analysis. For the Documents task, the treatment group using Gen AI had a 17% improvement in answer quality scores (as judged by human evaluators) and a 34% improvement in task completion time compared to a control group. For the Data task, we find the Gen AI treatment group experienced a 12% reduction in quality scores and no significant difference in mean completion time compared to the control group. These results suggest that the benefits of Gen AI may be task and potentially respondent dependent. We also discuss field notes and lessons learned, as well as supplementary insights from a post-trial survey and feedback workshop with participants.

arxiv情報

著者 Trevor Fitzpatrick,Seamus Kelly,Patrick Carey,David Walsh,Ruairi Nugent
発行日 2025-02-13 16:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.GN, q-fin.EC, q-fin.GN | Assessing Generative AI value in a public sector context: evidence from a field experiment はコメントを受け付けていません

Mixed-curvature decision trees and random forests

要約

意思決定ツリー(DTS)とそのランダムフォレスト(RF)拡張は、ユークリッド空間での分類と回帰の主力です。
ただし、非ユークリッドスペースで学習するためのアルゴリズムはまだ限られています。
DTおよびRFアルゴリズムを製品マニホールドに拡張します:いくつかの双曲線、hyp球、またはユークリッド成分のデカルト製品。
このようなマニホールドは、不均一な曲率を処理しながら、よりシンプルなコンポーネントにきちんと因数分解しているため、複雑なデータセットに埋め込みスペースを強化します。
DTSの新規の角度再編成は、製品の多様性のジオメトリを尊重し、測地線に凸状、最大マージン、および複合可能な分割を生成します。
単一成分マニホールドの特殊な場合、私たちの方法は、そのユークリッドまたは双曲線の対応物に単純化したり、湾曲に応じて延期DTアルゴリズムを導入したりします。
合成データ、グラフ埋め込み、混合農業変動自動エンコーダー潜在スペース、および経験的データに関するさまざまな分類、回帰、およびリンク予測タスクに関する方法をベンチマークします。
他の7つの分類子と比較して、製品RFは57のベンチマークのうち25で1位にランクされ、57のうち46のうち46のトップ2に配置されます。これは、製品マニホールドのデータ分析のための簡単で強力な新しいツールとして製品RFの価値を強調しています。
私たちの論文のコードは、https://github.com/pchlenski/manifyで入手できます。

要約(オリジナル)

Decision trees (DTs) and their random forest (RF) extensions are workhorses of classification and regression in Euclidean spaces. However, algorithms for learning in non-Euclidean spaces are still limited. We extend DT and RF algorithms to product manifolds: Cartesian products of several hyperbolic, hyperspherical, or Euclidean components. Such manifolds handle heterogeneous curvature while still factorizing neatly into simpler components, making them compelling embedding spaces for complex datasets. Our novel angular reformulation of DTs respects the geometry of the product manifold, yielding splits that are geodesically convex, maximum-margin, and composable. In the special cases of single-component manifolds, our method simplifies to its Euclidean or hyperbolic counterparts, or introduces hyperspherical DT algorithms, depending on the curvature. We benchmark our method on various classification, regression, and link prediction tasks on synthetic data, graph embeddings, mixed-curvature variational autoencoder latent spaces, and empirical data. Compared to 7 other classifiers, product RFs ranked first on 25 out of 57 benchmarks, and placed in the top 2 for 46 out of 57. This highlights the value of product RFs as straightforward yet powerful new tools for data analysis in product manifolds. Code for our paper is available at https://github.com/pchlenski/manify.

arxiv情報

著者 Philippe Chlenski,Quentin Chu,Raiyan R. Khan,Kaizhu Du,Antonio Khalil Moretti,Itsik Pe’er
発行日 2025-02-13 16:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Mixed-curvature decision trees and random forests はコメントを受け付けていません

Inverse Design with Dynamic Mode Decomposition

要約

科学と工学における逆設計の自動化のための計算効率的な方法を導入します。
単純な最小二乗回帰に基づいて、基礎となる動的モード分解アルゴリズムを使用して、パラメーター空間で複数の実験にまたがる低ランクの部分空間を構築できます。
提案された逆設計動的モード構成(ID-DMD)アルゴリズムは、計算された低次元のサブスペースを活用して、ダイナミクス自体を処方する可能性を含む、ラップトップレベルのコンピューティングの高速デジタル設計と最適化を可能にします。
さらに、この方法はノイズに対して堅牢で、物理的に解釈可能であり、不確実性の定量化メトリックを提供できます。
アーキテクチャは、ID-DMDのランダム化されたアルゴリズムを使用して、大規模な設計上の問題に効率的にスケーリングすることもできます。
方法とその実装のシンプルさは実際には非常に魅力的であり、ID-DMDは競合する方法よりも桁違いにより正確であることが実証されていますが、構造振動に至るまでのエンジニアリングデザインの問題に挑戦する際に3〜5注文すると同時に3-5注文することが実証されています。
流動的なダイナミクスに。
他の主要な機械学習方法と比較した速度、堅牢性、解釈可能性、使いやすさのために、ID-DMDは、逆の設計と最適化のためのデータ駆動型の方法の重要な進歩を表し、アプローチ方法のパラダイムシフトを約束します
実際の逆設計。

要約(オリジナル)

We introduce a computationally efficient method for the automation of inverse design in science and engineering. Based on simple least-square regression, the underlying dynamic mode decomposition algorithm can be used to construct a low-rank subspace spanning multiple experiments in parameter space. The proposed inverse design dynamic mode composition (ID-DMD) algorithm leverages the computed low-dimensional subspace to enable fast digital design and optimization on laptop-level computing, including the potential to prescribe the dynamics themselves. Moreover, the method is robust to noise, physically interpretable, and can provide uncertainty quantification metrics. The architecture can also efficiently scale to large-scale design problems using randomized algorithms in the ID-DMD. The simplicity of the method and its implementation are highly attractive in practice, and the ID-DMD has been demonstrated to be an order of magnitude more accurate than competing methods while simultaneously being 3-5 orders faster on challenging engineering design problems ranging from structural vibrations to fluid dynamics. Due to its speed, robustness, interpretability, and ease-of-use, ID-DMD in comparison with other leading machine learning methods represents a significant advancement in data-driven methods for inverse design and optimization, promising a paradigm shift in how to approach inverse design in practice.

arxiv情報

著者 Yunpeng Zhu,Liangliang Cheng,Anping Jing,Hanyu Huo,Ziqiang Lang,Bo Zhang,J. Nathan Kutz
発行日 2025-02-13 16:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 37M05, 37M10, 37M21, cs.LG, cs.SY, eess.SY, G.1.6, math.DS, math.OC, physics.flu-dyn | Inverse Design with Dynamic Mode Decomposition はコメントを受け付けていません

Communicating Likelihoods with Normalising Flows

要約

マシンラーニングベースのワークフローを提示して、そのサンプルから未使用の可能性をモデル化します。
既存のアプローチに対する重要な進歩は、関節分布のコルモゴロフスミルノフテストなど、共同分布の厳密な統計テストを使用した学習尤度の検証です。
私たちの方法により、その後の分析のための実験的および現象学的尤度の信頼できるコミュニケーションが可能になります。
高エネルギー物理学の3つのケーススタディを通じてその有効性を実証します。
より広範な採用をサポートするために、オープンソースの参照実装であるNabuを提供します。

要約(オリジナル)

We present a machine-learning-based workflow to model an unbinned likelihood from its samples. A key advancement over existing approaches is the validation of the learned likelihood using rigorous statistical tests of the joint distribution, such as the Kolmogorov-Smirnov test of the joint distribution. Our method enables the reliable communication of experimental and phenomenological likelihoods for subsequent analyses. We demonstrate its effectiveness through three case studies in high-energy physics. To support broader adoption, we provide an open-source reference implementation, nabu.

arxiv情報

著者 Jack Y. Araz,Anja Beck,Méril Reboud,Michael Spannowsky,Danny van Dyk
発行日 2025-02-13 17:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, hep-ex, hep-ph, physics.data-an | Communicating Likelihoods with Normalising Flows はコメントを受け付けていません

On Agnostic PAC Learning in the Small Error Regime

要約

古典的なPACモデルのバイナリ分類は、好奇心の強い現象を示します。経験的リスク最小化(ERM)学習者は、実現可能なケースでは次味的ですが、不可知論の場合は最適です。
大まかに言えば、これは、非実現可能な分布$ \ mathcal {d} $は、実現可能な分布よりも学習がより困難であるという事実があります – $ \ mathrm {err}(h^*
_ {\ mathcal {d}})$、$ \ mathcal {d} $ for $ \ mathcal {h} $の最良の仮説の誤差。
したがって、最適な不可知論者学習者は、(学習しやすい)分布で過剰なエラーを発生させることが許可されています$ \ mathcal {d} $
)$は小さい。
Hanneke、Larsen、およびZhivotovskiy(Focs `24)の最近の研究は、$ \ tau $自体を不可知論的エラー用語のパラメーターとして含めることにより、この欠点に対処します。
このよりきめ細かいモデルでは、エラー下限$ \ tau + \ omega \ left(\ sqrt {\ frac {\ frac(d + \ log(1 / \ delta))} {m}}}}}}の緊密さを示します。
+ \ frac {d + \ log(1 / \ delta)} {m} \ right)$ $ \ tau> d / m $で、より高い下限があるかどうかという問題を開いたままにしておきます。
$ \ tau \ emptx d/m $、$ d $は$ \ mathrm {vc}(\ mathcal {h})$を示します。
この作業では、エラー$ c \ cdot \ tau + o \ left(\ sqrt {\ frac {\ tau(d + \ log(1 / \ delta))} {m})を達成する学習者を展示することにより、この質問を解決します。
} + \ frac {d + \ log(1 / \ delta)} {m} \ right)$ for constant $ c \ leq 2.1 $を使用するため、$ \ tau \ emptx d / m $の場合、下限と一致します。
さらに、私たちの学習者は計算上効率的であり、ERM分類器の慎重な集計に基づいており、Hanneke、Larsen、およびZhivotovskiy(Focs `24)の他の2つの質問を進歩させています。
私たちは、私たちのアプローチを改良して定数を2.1から1に下げることができるかどうかという興味深い質問を開いたままにしておきます。

要約(オリジナル)

Binary classification in the classic PAC model exhibits a curious phenomenon: Empirical Risk Minimization (ERM) learners are suboptimal in the realizable case yet optimal in the agnostic case. Roughly speaking, this owes itself to the fact that non-realizable distributions $\mathcal{D}$ are simply more difficult to learn than realizable distributions — even when one discounts a learner’s error by $\mathrm{err}(h^*_{\mathcal{D}})$, the error of the best hypothesis in $\mathcal{H}$ for $\mathcal{D}$. Thus, optimal agnostic learners are permitted to incur excess error on (easier-to-learn) distributions $\mathcal{D}$ for which $\tau = \mathrm{err}(h^*_{\mathcal{D}})$ is small. Recent work of Hanneke, Larsen, and Zhivotovskiy (FOCS `24) addresses this shortcoming by including $\tau$ itself as a parameter in the agnostic error term. In this more fine-grained model, they demonstrate tightness of the error lower bound $\tau + \Omega \left(\sqrt{\frac{\tau (d + \log(1 / \delta))}{m}} + \frac{d + \log(1 / \delta)}{m} \right)$ in a regime where $\tau > d/m$, and leave open the question of whether there may be a higher lower bound when $\tau \approx d/m$, with $d$ denoting $\mathrm{VC}(\mathcal{H})$. In this work, we resolve this question by exhibiting a learner which achieves error $c \cdot \tau + O \left(\sqrt{\frac{\tau (d + \log(1 / \delta))}{m}} + \frac{d + \log(1 / \delta)}{m} \right)$ for a constant $c \leq 2.1$, thus matching the lower bound when $\tau \approx d/m$. Further, our learner is computationally efficient and is based upon careful aggregations of ERM classifiers, making progress on two other questions of Hanneke, Larsen, and Zhivotovskiy (FOCS `24). We leave open the interesting question of whether our approach can be refined to lower the constant from 2.1 to 1, which would completely settle the complexity of agnostic learning.

arxiv情報

著者 Julian Asilis,Mikael Møller Høgsgaard,Grigoris Velegkas
発行日 2025-02-13 17:03:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | On Agnostic PAC Learning in the Small Error Regime はコメントを受け付けていません

Eidetic Learning: an Efficient and Provable Solution to Catastrophic Forgetting

要約

壊滅的な忘却 – タスクT1を学習し、他のタスクT2で訓練された後にそれを実行する能力を失うニューラルネットワークの現象 – は、ニューラルネットワークの長年の問題です[McCloskey and Cohen、1989]。
壊滅的な忘却を実証する方法、Eidetic Learningを提示します。
Eidetic Learningでトレーニングされたネットワーク – ここでは、eideticNet-リハーサルやリプレイは必要ありません。
連続した離散タスクを検討し、推論時にeideticNetが補助タスク情報なしで新しいインスタンスを自動的にルーティングする方法を示します。
eideticnetは、少量のエクスパーの混合物層に類似している家族と類似しています。
[2016]そのネットワーク容量はタスク全体で分割され、ネットワーク自体はデータコンディショナルルーティングを実行します。
eideticNetは実装とトレーニングが簡単で、効率的で、パラメーターの数に時間と空間の複雑さが直線的です。
私たちの方法の保証は、トレーニング前と微調整の両方の間に、最新のニューラルネットワークの正規化層を保持します。
さまざまなネットワークアーキテクチャと、eideticNetsが忘れられないものであることを一連のタスクで表示します。
EideticNetsの実際的な利点はかなりのものですが、彼らは有益な開業医と理論家に同様にできると信じています。
eideticNetsのトレーニング用コードは、\ href {https://github.com/amazon-science/eideticnet-training}で入手できます{このhttps url}。

要約(オリジナル)

Catastrophic forgetting — the phenomenon of a neural network learning a task t1 and losing the ability to perform it after being trained on some other task t2 — is a long-standing problem for neural networks [McCloskey and Cohen, 1989]. We present a method, Eidetic Learning, that provably solves catastrophic forgetting. A network trained with Eidetic Learning — here, an EideticNet — requires no rehearsal or replay. We consider successive discrete tasks and show how at inference time an EideticNet automatically routes new instances without auxiliary task information. An EideticNet bears a family resemblance to the sparsely-gated Mixture-of-Experts layer Shazeer et al. [2016] in that network capacity is partitioned across tasks and the network itself performs data-conditional routing. An EideticNet is easy to implement and train, is efficient, and has time and space complexity linear in the number of parameters. The guarantee of our method holds for normalization layers of modern neural networks during both pre-training and fine-tuning. We show with a variety of network architectures and sets of tasks that EideticNets are immune to forgetting. While the practical benefits of EideticNets are substantial, we believe they can be benefit practitioners and theorists alike. The code for training EideticNets is available at \href{https://github.com/amazon-science/eideticnet-training}{this https URL}.

arxiv情報

著者 Nicholas Dronen,Randall Balestriero
発行日 2025-02-13 17:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Eidetic Learning: an Efficient and Provable Solution to Catastrophic Forgetting はコメントを受け付けていません