Theoretical Insights into Line Graph Transformation on Graph Learning

要約

折れ線グラフの変換はグラフ理論で広く研究されており、折れ線グラフの各ノードは元のグラフのエッジに対応します。
これは、変換された折れ線グラフに適用される一連のグラフ ニューラル ネットワーク (GNN) のインスピレーションとなり、さまざまなグラフ表現学習タスクで効果的であることが証明されました。
ただし、折れ線グラフ変換が GNN モデルの表現力にどのような影響を与えるかについての理論的研究は限られています。
この研究では、Weisfeiler-Leman (WL) 検定が困難であることが知られている 2 種類のグラフ、Cai-F\’urer-Immerman (CFI) グラフと強い正則グラフに焦点を当て、折れ線グラフ変換の適用が役立つことを示します。
これらの困難なグラフのプロパティを除外することで、これらのグラフを区別する際の WL テストを支援できる可能性があります。
これらのグラフ構造タイプ全体で、線変換されたグラフと元のグラフの両方でグラフ同型性テストと GNN の精度と効率を比較する一連の実験を実行することにより、結果を経験的に検証します。

要約(オリジナル)

Line graph transformation has been widely studied in graph theory, where each node in a line graph corresponds to an edge in the original graph. This has inspired a series of graph neural networks (GNNs) applied to transformed line graphs, which have proven effective in various graph representation learning tasks. However, there is limited theoretical study on how line graph transformation affects the expressivity of GNN models. In this study, we focus on two types of graphs known to be challenging to the Weisfeiler-Leman (WL) tests: Cai-F\’urer-Immerman (CFI) graphs and strongly regular graphs, and show that applying line graph transformation helps exclude these challenging graph properties, thus potentially assist WL tests in distinguishing these graphs. We empirically validate our findings by conducting a series of experiments that compare the accuracy and efficiency of graph isomorphism tests and GNNs on both line-transformed and original graphs across these graph structure types.

arxiv情報

著者 Fan Yang,Xingyue Huang
発行日 2024-10-21 16:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.CO, stat.ML | Theoretical Insights into Line Graph Transformation on Graph Learning はコメントを受け付けていません

Modelling Structured Data Learning with Restricted Boltzmann Machines in the Teacher-Student Setting

要約

制限付きボルツマン マシン (RBM) は、豊富な基礎構造を持つデータを学習できる生成モデルです。
私たちは、教師 RBM によって生成された構造化データを生徒 RBM が学習する教師と生徒の設定を研究します。
データ内の構造の量は、教師の隠れユニットの数と重みの行の相関関係 (別名パターン) を調整することによって制御されます。
相関関係がない場合、パフォーマンスは教師のパターンと生徒の RBM の隠れユニットの数に依存しないという推測が検証され、教師と生徒の設定は宝くじを研究するためのおもちゃのモデルとして使用できると主張します。
仮説。
この体制を超えると、教師パターンを学習するために必要な重要なデータ量が、その数と相関関係の両方とともに減少することがわかります。
どちらの領域でも、比較的大規模なデータセットであっても、正則化に使用される推論温度が低すぎると教師パターンを学習することが不可能になることがわかります。
私たちのフレームワークでは、生徒は教師のパターンを 1 対 1 または多対 1 で学習でき、2 つの隠れユニットによる教師と生徒の設定に関する以前の発見を、任意の有限数の隠れユニットに一般化します。

要約(オリジナル)

Restricted Boltzmann machines (RBM) are generative models capable to learn data with a rich underlying structure. We study the teacher-student setting where a student RBM learns structured data generated by a teacher RBM. The amount of structure in the data is controlled by adjusting the number of hidden units of the teacher and the correlations in the rows of the weights, a.k.a. patterns. In the absence of correlations, we validate the conjecture that the performance is independent of the number of teacher patters and hidden units of the student RBMs, and we argue that the teacher-student setting can be used as a toy model for studying the lottery ticket hypothesis. Beyond this regime, we find that the critical amount of data required to learn the teacher patterns decreases with both their number and correlations. In both regimes, we find that, even with an relatively large dataset, it becomes impossible to learn the teacher patterns if the inference temperature used for regularization is kept too low. In our framework, the student can learn teacher patterns one-to-one or many-to-one, generalizing previous findings about the teacher-student setting with two hidden units to any arbitrary finite number of hidden units.

arxiv情報

著者 Robin Thériault,Francesco Tosello,Daniele Tantari
発行日 2024-10-21 16:18:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG | Modelling Structured Data Learning with Restricted Boltzmann Machines in the Teacher-Student Setting はコメントを受け付けていません

Unsupervised Replay Strategies for Continual Learning with Limited Data

要約

人工ニューラル ネットワーク (ANN) は、トレーニング データが不足しているか不均衡であるとパフォーマンスが制限され、新しいタスクのトレーニング後に以前に学習したデータを忘れてしまうなど、継続的な学習に関する課題に直面しています。
対照的に、人間の脳は、ほんの数例から継続的に学習することができます。
この研究では、限定的で不均衡なデータセット、特に MNIST と Fashion MNIST を使用して段階的にトレーニングされた ANN に対する、局所ヘビアン学習ルールによる確率的活性化を組み込んだ教師なしフェーズである「睡眠」の影響を調査します。
私たちは、睡眠フェーズを導入すると、限られたデータでトレーニングされたモデルの精度が大幅に向上することを発見しました。
いくつかのタスクを連続してトレーニングした場合、スリープ リプレイは、新しいタスクのトレーニング後に壊滅的に忘れ去られていた以前に学習した情報を救い出すだけでなく、以前のタスク、特に限られたデータでトレーニングされたタスクのパフォーマンスを向上させることがよくありました。
この研究は、ANNにおける学習効率の向上と継続的な学習の促進における睡眠再生の多面的な役割を強調しています。

要約(オリジナル)

Artificial neural networks (ANNs) show limited performance with scarce or imbalanced training data and face challenges with continuous learning, such as forgetting previously learned data after new tasks training. In contrast, the human brain can learn continuously and from just a few examples. This research explores the impact of ‘sleep’, an unsupervised phase incorporating stochastic activation with local Hebbian learning rules, on ANNs trained incrementally with limited and imbalanced datasets, specifically MNIST and Fashion MNIST. We discovered that introducing a sleep phase significantly enhanced accuracy in models trained with limited data. When a few tasks were trained sequentially, sleep replay not only rescued previously learned information that had been catastrophically forgetting following new task training but often enhanced performance in prior tasks, especially those trained with limited data. This study highlights the multifaceted role of sleep replay in augmenting learning efficiency and facilitating continual learning in ANNs.

arxiv情報

著者 Anthony Bazhenov,Pahan Dewasurendra,Giri P. Krishnan,Jean Erik Delanois
発行日 2024-10-21 16:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Unsupervised Replay Strategies for Continual Learning with Limited Data はコメントを受け付けていません

DMM: Distributed Matrix Mechanism for Differentially-Private Federated Learning using Packed Secret Sharing

要約

Federated Learning (FL) は、最近、産業界と学術界の両方で大きな注目を集めています。
フロリダ州では、複数のラウンドにわたる委員会に編成されたさまざまなエンドユーザーからのデータを使用して機械学習モデルがトレーニングされます。
このようなデータは機密性が高いことが多いため、フロリダ州の主な課題は、モデルの有用性を維持しながらプライバシーを提供することです。
差分プライバシー (DP) は、FL 設定におけるプライバシーの主な尺度になっています。
DP には、中央とローカルの 2 つの種類があります。
前者では、集中サーバーがトレーニング ステップからユーザーの生の勾配を受信し、モデルの次のバージョンをリリースする前にノイズでその集計を混乱させると信頼されています。
後者の (よりプライベートな) 設定では、ノイズがユーザーのローカル デバイスに適用され、ユーザーのノイズを含む勾配の集計のみがサーバーにも公開されます。
いわゆるマトリックス メカニズムを利用することにより、中央の DP 設定におけるプライバシーとユーティリティのトレードオフを高める点で大きな進歩が見られました。
ただし、ローカル DP 設定では進捗がほとんど停滞しています。
この研究では、両方の長所を達成するために分散マトリックス メカニズムを導入します。
ローカル DP だけでなく、マトリックス メカニズムによるプライバシーとユーティリティのトレードオフも向上します。
私たちは、パックされた秘密の共有を利用してラウンド間で機密の値を安全に転送する暗号プロトコルを提案することでこれを実現します。
このプロトコルは、計算からドロップアウトする可能性のあるユーザーを含め、FL によって要求されるトレーニング ラウンドごとのユーザーの動的な参加に対応します。
私たちは、オーバーヘッドをほとんど追加することなく、以前のローカル DP メカニズムと比較して、私たちのメカニズムが FL モデルのプライバシーとユーティリティのトレードオフを実際に大幅に改善することを示す実験を提供します。

要約(オリジナル)

Federated Learning (FL) has gained lots of traction recently, both in industry and academia. In FL, a machine learning model is trained using data from various end-users arranged in committees across several rounds. Since such data can often be sensitive, a primary challenge in FL is providing privacy while still retaining utility of the model. Differential Privacy (DP) has become the main measure of privacy in the FL setting. DP comes in two flavors: central and local. In the former, a centralized server is trusted to receive the users’ raw gradients from a training step, and then perturb their aggregation with some noise before releasing the next version of the model. In the latter (more private) setting, noise is applied on users’ local devices, and only the aggregation of users’ noisy gradients is revealed even to the server. Great strides have been made in increasing the privacy-utility trade-off in the central DP setting, by utilizing the so-called matrix mechanism. However, progress has been mostly stalled in the local DP setting. In this work, we introduce the distributed matrix mechanism to achieve the best-of-both-worlds; local DP and also better privacy-utility trade-off from the matrix mechanism. We accomplish this by proposing a cryptographic protocol that securely transfers sensitive values across rounds, which makes use of packed secret sharing. This protocol accommodates the dynamic participation of users per training round required by FL, including those that may drop out from the computation. We provide experiments which show that our mechanism indeed significantly improves the privacy-utility trade-off of FL models compared to previous local DP mechanisms, with little added overhead.

arxiv情報

著者 Alexander Bienstock,Ujjwal Kumar,Antigoni Polychroniadou
発行日 2024-10-21 16:25:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | DMM: Distributed Matrix Mechanism for Differentially-Private Federated Learning using Packed Secret Sharing はコメントを受け付けていません

Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning

要約

最近の研究では、トレーニング時のバックドア ポイズニング攻撃に対する深層強化学習 (DRL) アルゴリズムの脆弱性が実証されています。
これらの攻撃は、エージェントがトレーニング中に意図したタスクを解決できるようにしながら、展開中に固定トリガーを観察すると、エージェントに事前に決定された敵対的な動作を誘発します。
以前の攻撃は、これらの目的の両方を達成するために、エージェントの報酬に対する任意の大きな摂動に依存しており、検出される可能性が残されていました。
したがって、この研究では、エージェントの報酬の変更を最小限に抑えながら最先端のパフォーマンスを達成する、DRL に対する新しいクラスのバックドア攻撃を提案します。
これらの「インセプション」攻撃は、エージェントが選択したアクションとトレーニング中に環境で実行される実際のアクションとの間の分離を誘導することにより、ターゲットとなった敵対的な行動を高い利益に結びつけるようにエージェントをトレーニングします。
私たちはこれらの攻撃を正式に定義し、両方の敵対的な目的を達成できることを証明しています。
次に、限られた報酬制約の下で以前の攻撃を大幅に上回るオンライン開始攻撃を考案します。

要約(オリジナル)

Recent works have demonstrated the vulnerability of Deep Reinforcement Learning (DRL) algorithms against training-time, backdoor poisoning attacks. These attacks induce pre-determined, adversarial behavior in the agent upon observing a fixed trigger during deployment while allowing the agent to solve its intended task during training. Prior attacks rely on arbitrarily large perturbations to the agent’s rewards to achieve both of these objectives – leaving them open to detection. Thus, in this work, we propose a new class of backdoor attacks against DRL which achieve state of the art performance while minimally altering the agent’s rewards. These ‘inception’ attacks train the agent to associate the targeted adversarial behavior with high returns by inducing a disjunction between the agent’s chosen action and the true action executed in the environment during training. We formally define these attacks and prove they can achieve both adversarial objectives. We then devise an online inception attack which significantly out-performs prior attacks under bounded reward constraints.

arxiv情報

著者 Ethan Rathbun,Christopher Amato,Alina Oprea
発行日 2024-10-21 16:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning はコメントを受け付けていません

Differentiable Optimization of Similarity Scores Between Models and Brains

要約

2 つのシステム (生物学的システムか人工システム) が同様の方法で情報を処理しているかどうかをどのようにして知ることができるのでしょうか?
この類似性を定量化するために、線形回帰、中心カーネル アライメント (CKA)、正規化ビュレス類似度 (NBS)、角度プロクラステス距離などの類似性尺度がよく使用されます。
ただし、現時点では、何が高い類似性スコアをもたらすのか、また何が「良い」スコアを構成するのかさえ不明です。
ここでは、類似性尺度を通じて区別することでこれらの質問を調査し、スコアを直接最大化する新しいツールを紹介します。
驚くべきことに、高い類似性スコアは、ニューラル データと一致する方法でタスク関連情報をエンコードすることを保証しないことがわかりました。
これは、CKA だけでなく、交差検証および正規化された線形回帰の一部のバリエーションでも特に深刻です。
良好な類似性スコアに対する一貫したしきい値は見つかりません。それは測定値とデータセットの両方に依存します。
さらに、類似性スコアを最大化するように最適化された合成データセットは、最初にターゲット データセットの最も高い分散主成分を学習しますが、angular Procrustes などの一部の手法は、CKA などの手法よりもはるかに早い段階でより低い分散次元を取得します。
これを明らかにするために、主成分の次元の分散に対する CKA、角度プロクラステス、および NBS の感度を数学的に導出し、CKA が高分散成分に重点を置くことを説明します。
最後に、複数の類似性尺度を共同最適化することで、それらの許容範囲を特徴付け、一部の類似性尺度が他の類似性尺度よりも制約的であることを明らかにします。
現在の尺度は、神経システム間の類似性を定量化する一見簡単な方法を提供していますが、私たちの研究は慎重な解釈の必要性を強調しています。
私たちが開発したツールが、現在および将来の類似性尺度をより深く理解するために実務家によって使用されることを願っています。

要約(オリジナル)

How do we know if two systems – biological or artificial – process information in a similar way? Similarity measures such as linear regression, Centered Kernel Alignment (CKA), Normalized Bures Similarity (NBS), and angular Procrustes distance, are often used to quantify this similarity. However, it is currently unclear what drives high similarity scores and even what constitutes a ‘good’ score. Here, we introduce a novel tool to investigate these questions by differentiating through similarity measures to directly maximize the score. Surprisingly, we find that high similarity scores do not guarantee encoding task-relevant information in a manner consistent with neural data; and this is particularly acute for CKA and even some variations of cross-validated and regularized linear regression. We find no consistent threshold for a good similarity score – it depends on both the measure and the dataset. In addition, synthetic datasets optimized to maximize similarity scores initially learn the highest variance principal component of the target dataset, but some methods like angular Procrustes capture lower variance dimensions much earlier than methods like CKA. To shed light on this, we mathematically derive the sensitivity of CKA, angular Procrustes, and NBS to the variance of principal component dimensions, and explain the emphasis CKA places on high variance components. Finally, by jointly optimizing multiple similarity measures, we characterize their allowable ranges and reveal that some similarity measures are more constraining than others. While current measures offer a seemingly straightforward way to quantify the similarity between neural systems, our work underscores the need for careful interpretation. We hope the tools we developed will be used by practitioners to better understand current and future similarity measures.

arxiv情報

著者 Nathan Cloos,Moufan Li,Markus Siegel,Scott L. Brincat,Earl K. Miller,Guangyu Robert Yang,Christopher J. Cueva
発行日 2024-10-21 16:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | Differentiable Optimization of Similarity Scores Between Models and Brains はコメントを受け付けていません

This Too Shall Pass: Removing Stale Observations in Dynamic Bayesian Optimization

要約

ベイジアン最適化 (BO) は、静的でノイズが多く、評価コストがかかるブラックボックス関数 $f : \mathcal{S} \to \mathbb{R}$ の最適化に非常に成功していることが証明されています。
ただし、時間の関数でもあるブラックボックス (つまり、動的関数) $f : \mathcal{S} \times \mathcal{T} \to \mathbb{R}$ を最適化することは依然として課題です。
動的ベイジアン最適化 (DBO) アルゴリズムは、時間の経過とともに最適値を追跡し続ける必要があります。
これにより、少なくとも 3 つの側面で最適化問題の性質が変わります。(i) $\mathcal{S} \times \mathcal{T}$ 内の任意の点をクエリすることは不可能です。(ii) 過去の観察は、最適化問題との関連性がますます低くなります。
(iii) DBO アルゴリズムは、時間の経過とともに最適値を追跡するために十分な関連観測を収集できるように、高いサンプリング周波数を持つ必要があります。
この論文では、将来の予測に対する観測値の関連性を定量化できる、Wasserstein 距離ベースの基準を設計します。
次に、この基準を利用して W-DBO を構築します。W-DBO は、その場でデータセットから無関係な観測値を削除できる DBO アルゴリズムです。これにより、未知の期間を伴う連続時間の最適化タスクであっても、優れた予測パフォーマンスと高いサンプリング周波数を同時に維持できます。

数値実験により、W-DBO の優位性が確立され、最先端の手法を余裕のマージンで上回ります。

要約(オリジナル)

Bayesian Optimization (BO) has proven to be very successful at optimizing a static, noisy, costly-to-evaluate black-box function $f : \mathcal{S} \to \mathbb{R}$. However, optimizing a black-box which is also a function of time (i.e., a dynamic function) $f : \mathcal{S} \times \mathcal{T} \to \mathbb{R}$ remains a challenge, since a dynamic Bayesian Optimization (DBO) algorithm has to keep track of the optimum over time. This changes the nature of the optimization problem in at least three aspects: (i) querying an arbitrary point in $\mathcal{S} \times \mathcal{T}$ is impossible, (ii) past observations become less and less relevant for keeping track of the optimum as time goes by and (iii) the DBO algorithm must have a high sampling frequency so it can collect enough relevant observations to keep track of the optimum through time. In this paper, we design a Wasserstein distance-based criterion able to quantify the relevancy of an observation with respect to future predictions. Then, we leverage this criterion to build W-DBO, a DBO algorithm able to remove irrelevant observations from its dataset on the fly, thus maintaining simultaneously a good predictive performance and a high sampling frequency, even in continuous-time optimization tasks with unknown horizon. Numerical experiments establish the superiority of W-DBO, which outperforms state-of-the-art methods by a comfortable margin.

arxiv情報

著者 Anthony Bardou,Patrick Thiran,Giovanni Ranieri
発行日 2024-10-21 16:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | This Too Shall Pass: Removing Stale Observations in Dynamic Bayesian Optimization はコメントを受け付けていません

SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents

要約

強化学習 (RL) は活発に成長している分野であり、現実世界の安全性が重要なアプリケーションでの使用が増加しており、敵対的な攻撃に対する RL アルゴリズムの堅牢性を確保することが最も重要です。
この研究では、RL に対するトレーニング時の特にステルスな形式の攻撃、つまりバックドア ポイズニングを調査します。
ここで、敵対者は、エージェントが推論時に事前に決定されたトリガーを観察したときに特定のアクションを確実に誘発することを目的として、RL エージェントのトレーニングを傍受します。
私たちは、ドメインや MDP 間で一般化できないことを証明することで、以前の研究の理論的限界を明らかにします。
これを動機として、私たちは敵対者の目的と最適なポリシーを見つけるという目的を結び付け、限界内で攻撃の成功を保証する新しいポイズニング攻撃フレームワークを策定します。
理論分析からの洞察を使用して、新しく提案された脅威モデルを悪用し、動的報酬ポイズニング技術を活用する普遍的なバックドア攻撃として「SleeperNets」を開発します。
複数のドメインにまたがる 6 つの環境で攻撃を評価し、無害な一時的なリターンを維持しながら、既存の方法と比べて攻撃の成功率が大幅に向上していることを実証しました。

要約(オリジナル)

Reinforcement learning (RL) is an actively growing field that is seeing increased usage in real-world, safety-critical applications — making it paramount to ensure the robustness of RL algorithms against adversarial attacks. In this work we explore a particularly stealthy form of training-time attacks against RL — backdoor poisoning. Here the adversary intercepts the training of an RL agent with the goal of reliably inducing a particular action when the agent observes a pre-determined trigger at inference time. We uncover theoretical limitations of prior work by proving their inability to generalize across domains and MDPs. Motivated by this, we formulate a novel poisoning attack framework which interlinks the adversary’s objectives with those of finding an optimal policy — guaranteeing attack success in the limit. Using insights from our theoretical analysis we develop “SleeperNets” as a universal backdoor attack which exploits a newly proposed threat model and leverages dynamic reward poisoning techniques. We evaluate our attack in 6 environments spanning multiple domains and demonstrate significant improvements in attack success over existing methods, while preserving benign episodic return.

arxiv情報

著者 Ethan Rathbun,Christopher Amato,Alina Oprea
発行日 2024-10-21 16:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents はコメントを受け付けていません

A Trust-Region Method for Graphical Stein Variational Inference

要約

スタイン変分推論 (SVI) は、サンプルベースの近似ベイズ推論手法であり、サンプルの位置を共同最適化することでサンプル セットを生成し、ターゲットの確率分布との不一致の情報理論的尺度を最小限に抑えます。
したがって、SVI は、従来の (ランダム サンプリング ベースの) 代替手段よりも高速かつ大幅にサンプル効率の高いベイズ推論アプローチを提供します。
しかし、既存の SVI 手法で採用されている最適化手法は、ターゲットの分布が高次元、条件が不十分、または非凸である問題に対処するのに苦労しており、実際の適用範囲が大幅に制限されています。
このペーパーでは、これらの課題のそれぞれにうまく対処する、SVI のための新しい信頼領域最適化アプローチを提案します。
私たちの方法は、ターゲット分布の条件付き独立性(高次元のスケーリングを達成するため)と二次情報(不十分なコンディショニングに対処するため)を活用することで、SVI での以前の研究に基づいて構築されています。さらに、効果的な適応ステップ制御手順を提供します。
困難な非凸最適化問題の収束を保証します。
実験結果は、私たちの手法が以前の SVI 手法よりも収束率とサンプル精度の両方で優れた数値性能を達成し、高次元分布でより適切にスケーリングできることを示しています。

要約(オリジナル)

Stein variational inference (SVI) is a sample-based approximate Bayesian inference technique that generates a sample set by jointly optimizing the samples’ locations to minimize an information-theoretic measure of discrepancy with the target probability distribution. SVI thus provides a fast and significantly more sample-efficient approach to Bayesian inference than traditional (random-sampling-based) alternatives. However, the optimization techniques employed in existing SVI methods struggle to address problems in which the target distribution is high-dimensional, poorly-conditioned, or non-convex, which severely limits the range of their practical applicability. In this paper, we propose a novel trust-region optimization approach for SVI that successfully addresses each of these challenges. Our method builds upon prior work in SVI by leveraging conditional independences in the target distribution (to achieve high-dimensional scaling) and second-order information (to address poor conditioning), while additionally providing an effective adaptive step control procedure, which is essential for ensuring convergence on challenging non-convex optimization problems. Experimental results show our method achieves superior numerical performance, both in convergence rate and sample accuracy, and scales better in high-dimensional distributions, than previous SVI techniques.

arxiv情報

著者 Liam Pavlovic,David M. Rosen
発行日 2024-10-21 16:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | A Trust-Region Method for Graphical Stein Variational Inference はコメントを受け付けていません

Theoretical Limitations of Ensembles in the Age of Overparameterization

要約

古典的なツリーベースのアンサンブルは、単一のデシジョン ツリーよりも優れた一般化を実現します。
対照的に、最近の実証研究では、(過剰パラメータ化された)ニューラル ネットワークの最新のアンサンブルは、単一のより大規模なニューラル ネットワークに比べて、固有の汎化利点を提供しない可能性があることが判明しています。
この論文では、ランダム特徴 (RF) リグレッサーのアンサンブルを理論開発の基礎として使用し、現代の過パラメータ化されたアンサンブルが古典的な過小パラメータ化されたアンサンブルとどのように異なるかを明らかにします。
通常、アンサンブルが正則化を誘発し汎化を高める過小パラメータ化領​​域とは対照的に、過パラメータ化された RF リグレッサーの無限アンサンブルが (単一の) 無限幅 RF リグレッサーと点的に等価になることを証明します。
この等価性は、リッジのないモデルでは正確であり、小さなリッジ ペナルティでは近似ですが、過剰パラメータ化されたアンサンブルと単一の大きなモデルがほぼ同一の一般化を示すことを意味します。
その結果、アンサンブル メンバー間の予測のばらつきを特徴づけることができ、それが従来の不確実性の概念を捉えるのではなく、容量の増加によって予想される効果を定量化することを実証できます。
私たちの結果は、パラメータが過剰な設定におけるアンサンブルの利点に関する一般的な仮定に疑問を投げかけ、パラメータが不足しているアンサンブルからの直感が深いアンサンブルとパラメータが過剰な領域にどの程度うまく伝達されるかについての再考を促します。

要約(オリジナル)

Classic tree-based ensembles generalize better than any single decision tree. In contrast, recent empirical studies find that modern ensembles of (overparameterized) neural networks may not provide any inherent generalization advantage over single but larger neural networks. This paper clarifies how modern overparameterized ensembles differ from their classic underparameterized counterparts, using ensembles of random feature (RF) regressors as a basis for developing theory. In contrast to the underparameterized regime, where ensembling typically induces regularization and increases generalization, we prove that infinite ensembles of overparameterized RF regressors become pointwise equivalent to (single) infinite-width RF regressors. This equivalence, which is exact for ridgeless models and approximate for small ridge penalties, implies that overparameterized ensembles and single large models exhibit nearly identical generalization. As a consequence, we can characterize the predictive variance amongst ensemble members, and demonstrate that it quantifies the expected effects of increasing capacity rather than capturing any conventional notion of uncertainty. Our results challenge common assumptions about the advantages of ensembles in overparameterized settings, prompting a reconsideration of how well intuitions from underparameterized ensembles transfer to deep ensembles and the overparameterized regime.

arxiv情報

著者 Niclas Dern,John P. Cunningham,Geoff Pleiss
発行日 2024-10-21 17:03:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Theoretical Limitations of Ensembles in the Age of Overparameterization はコメントを受け付けていません