ExDBN: Exact learning of Dynamic Bayesian Networks

要約

データからの因果学習は近年大きな注目を集めています。
因果関係を捉える方法の 1 つは、ベイジアン ネットワークを利用することです。
そこでは、確率変数が頂点によって表され、各エッジに関連付けられた重みがそれらの間の因果関係の強さを表す、重み付き有向非巡回グラフが復元されます。
この概念は、構造方程式モデルによって捕捉できる過去のデータへの依存性を導入することで動的効果を捕捉するように拡張されており、このモデルはスコアベースの学習アプローチを定式化するために今回の貢献で利用されています。
混合整数二次プログラムが定式化され、アルゴリズムによる解決策が提案されます。この解決策では、いわゆるブランチ アンド カット (「遅延制約」) 方法を利用することで、指数関数的に多くの非循環性制約の事前生成が回避されます。
新しいアプローチと最先端のアプローチを比較すると、提案されたアプローチが最大 25 の時系列の中小規模の合成インスタンスに適用された場合に優れた結果が得られることがわかります。
最後に、この方法が直接適用されるバイオサイエンスと金融における 2 つの興味深いアプリケーションは、小規模なインスタンスを処理できる高精度でグローバルに収束するソルバーを開発する機会をさらに強調します。

要約(オリジナル)

Causal learning from data has received much attention in recent years. One way of capturing causal relationships is by utilizing Bayesian networks. There, one recovers a weighted directed acyclic graph, in which random variables are represented by vertices, and the weights associated with each edge represent the strengths of the causal relationships between them. This concept is extended to capture dynamic effects by introducing a dependency on past data, which may be captured by the structural equation model, which is utilized in the present contribution to formulate a score-based learning approach. A mixed-integer quadratic program is formulated and an algorithmic solution proposed, in which the pre-generation of exponentially many acyclicity constraints is avoided by utilizing the so-called branch-and-cut (‘lazy constraint’) method. Comparing the novel approach to the state of the art, we show that the proposed approach turns out to produce excellent results when applied to small and medium-sized synthetic instances of up to 25 time-series. Lastly, two interesting applications in bio-science and finance, to which the method is directly applied, further stress the opportunities in developing highly accurate, globally convergent solvers that can handle modest instances.

arxiv情報

著者 Pavel Rytíř,Aleš Wodecki,Georgios Korpas,Jakub Mareček
発行日 2024-10-21 15:27:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | ExDBN: Exact learning of Dynamic Bayesian Networks はコメントを受け付けていません

LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics

要約

大規模モデルをトレーニングするためのメモリ効率の高いオプティマイザーである LDAdam を紹介します。これは、トレーニング中に完全なパラメーター空間を一貫して探索しながら、低次元の部分空間内で適応最適化ステップを実行します。
この戦略により、オプティマイザーのメモリ フットプリントがモデル サイズの一部に抑えられます。
LDAdam は、部分空間間の遷移、つまり投影された勾配の統計の推定を可能にするオプティマイザー状態の新しい投影認識更新ルールに依存しています。
低ランクの射影によるエラーを軽減するために、LDAdam には、勾配とオプティマイザーの状態圧縮の両方を明示的に考慮する、新しい一般化されたエラー フィードバック メカニズムが統合されています。
標準的な仮定の下で LDAdam の収束を証明し、LDAdam が言語モデルの正確かつ効率的な微調整と事前トレーニングを可能にすることを示します。

要約(オリジナル)

We introduce LDAdam, a memory-efficient optimizer for training large models, that performs adaptive optimization steps within lower dimensional subspaces, while consistently exploring the full parameter space during training. This strategy keeps the optimizer’s memory footprint to a fraction of the model size. LDAdam relies on a new projection-aware update rule for the optimizer states that allows for transitioning between subspaces, i.e., estimation of the statistics of the projected gradients. To mitigate the errors due to low-rank projection, LDAdam integrates a new generalized error feedback mechanism, which explicitly accounts for both gradient and optimizer state compression. We prove the convergence of LDAdam under standard assumptions, and show that LDAdam allows for accurate and efficient fine-tuning and pre-training of language models.

arxiv情報

著者 Thomas Robert,Mher Safaryan,Ionut-Vlad Modoranu,Dan Alistarh
発行日 2024-10-21 15:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics はコメントを受け付けていません

Statistical Inference for Temporal Difference Learning with Linear Function Approximation

要約

マルコフ決定プロセス (MDP) における特定のポリシーの価値関数に対する有限サンプル妥当性を備えた統計的推論は、強化学習の信頼性を確保するために重要です。
おそらく政策評価に最も広く使用されているアルゴリズムである時間差分 (TD) 学習は、この目的のための自然なフレームワークとして機能します。この論文では、Polyak-Ruppert 平均化と線形関数近似による TD 学習の一貫性特性を研究し、次の結果を取得します。
既存の結果に比べて 3 つの大幅な改善が見られます。
まず、漸近分散に明示的に依存し、弱い条件下でも成立する、新しいシャープな高次元確率収束保証を導出します。
さらに、文献に記載されているものよりも高速なレートを保証する、凸集合のクラスにわたる洗練された高次元ベリー・エッセン境界を確立します。
最後に、効率的なオンライン計算のために設計された、漸近共分散行列のプラグイン推定器を提案します。
これらの結果により、有限サンプル範囲が保証された、値関数の線形パラメーターの信頼領域と同時信頼区間の構築が可能になります。
数値実験を通じて理論的発見の適用可能性を実証します。

要約(オリジナル)

Statistical inference with finite-sample validity for the value function of a given policy in Markov decision processes (MDPs) is crucial for ensuring the reliability of reinforcement learning. Temporal Difference (TD) learning, arguably the most widely used algorithm for policy evaluation, serves as a natural framework for this purpose.In this paper, we study the consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation, and obtain three significant improvements over existing results. First, we derive a novel sharp high-dimensional probability convergence guarantee that depends explicitly on the asymptotic variance and holds under weak conditions. We further establish refined high-dimensional Berry-Esseen bounds over the class of convex sets that guarantee faster rates than those in the literature. Finally, we propose a plug-in estimator for the asymptotic covariance matrix, designed for efficient online computation. These results enable the construction of confidence regions and simultaneous confidence intervals for the linear parameters of the value function, with guaranteed finite-sample coverage. We demonstrate the applicability of our theoretical findings through numerical experiments.

arxiv情報

著者 Weichen Wu,Gen Li,Yuting Wei,Alessandro Rinaldo
発行日 2024-10-21 15:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Statistical Inference for Temporal Difference Learning with Linear Function Approximation はコメントを受け付けていません

AROMA: Preserving Spatial Structure for Latent PDE Modeling with Local Neural Fields

要約

我々は、局所神経場を使用して偏微分方程式 (PDE) のモデリングを強化するために設計されたフレームワークである AROMA (Attentive Reduced Order Model with Attendee) を紹介します。
当社の柔軟なエンコーダ/デコーダ アーキテクチャは、不規則なグリッド入力や点群などのさまざまなデータ タイプから空間物理フィールドの滑らかな潜在表現を取得できます。
この多用途性により、パッチの必要性がなくなり、多様な形状を効率的に処理できるようになります。
潜在表現の逐次的性質は空間的に解釈でき、PDE の時間的ダイナミクスをモデル化するための条件付き変換器の使用が可能になります。
拡散ベースの配合を採用することで、従来の MSE トレーニングと比較して安定性が向上し、長期間のロールアウトが可能になります。
1D および 2D 方程式のシミュレーションにおける AROMA の優れたパフォーマンスは、複雑な動的挙動の捕捉における私たちのアプローチの有効性を強調しています。

要約(オリジナル)

We present AROMA (Attentive Reduced Order Model with Attention), a framework designed to enhance the modeling of partial differential equations (PDEs) using local neural fields. Our flexible encoder-decoder architecture can obtain smooth latent representations of spatial physical fields from a variety of data types, including irregular-grid inputs and point clouds. This versatility eliminates the need for patching and allows efficient processing of diverse geometries. The sequential nature of our latent representation can be interpreted spatially and permits the use of a conditional transformer for modeling the temporal dynamics of PDEs. By employing a diffusion-based formulation, we achieve greater stability and enable longer rollouts compared to conventional MSE training. AROMA’s superior performance in simulating 1D and 2D equations underscores the efficacy of our approach in capturing complex dynamical behaviors.

arxiv情報

著者 Louis Serrano,Thomas X Wang,Etienne Le Naour,Jean-Noël Vittaut,Patrick Gallinari
発行日 2024-10-21 15:37:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | AROMA: Preserving Spatial Structure for Latent PDE Modeling with Local Neural Fields はコメントを受け付けていません

Extracting Spatiotemporal Data from Gradients with Large Language Models

要約

最近の研究では、ユーザーの機密データが勾配更新から再構築され、フェデレーテッド ラーニングの重要なプライバシーの約束が破られる可能性があることが示されています。
成功は主に画像データで実証されましたが、これらの方法は時空間データなどの他の領域に直接転送されません。
時空間連合学習におけるプライバシー リスクを理解するために、まず、時空間勾配反転攻撃 (ST-GIA) を提案します。これは、勾配から元の位置を首尾よく再構築する、時空間データに合わせた勾配攻撃アルゴリズムです。
さらに、時空間データに対する攻撃には事前分布が存在しないため、実際のクライアント データの正確な再構築が妨げられています。
この制限に対処するために、補助言語モデルを利用して潜在的な場所の検索をガイドし、それによって勾配から元のデータを首尾よく再構築する ST-GIA+ を提案します。
さらに、時空間連合学習における勾配反転攻撃を軽減するための適応防御戦略を設計します。
摂動レベルを動的に調整することで、さまざまなラウンドのトレーニング データに合わせた保護を提供できるため、現在の最先端の方法よりもプライバシーと実用性の間で優れたトレードオフを実現できます。
3 つの現実世界のデータセットに対する集中的な実験分析を通じて、提案された防御戦略が効果的なセキュリティ保護を備えた時空間連合学習の有用性を十分に維持できることを明らかにしました。

要約(オリジナル)

Recent works show that sensitive user data can be reconstructed from gradient updates, breaking the key privacy promise of federated learning. While success was demonstrated primarily on image data, these methods do not directly transfer to other domains, such as spatiotemporal data. To understand privacy risks in spatiotemporal federated learning, we first propose Spatiotemporal Gradient Inversion Attack (ST-GIA), a gradient attack algorithm tailored to spatiotemporal data that successfully reconstructs the original location from gradients. Furthermore, the absence of priors in attacks on spatiotemporal data has hindered the accurate reconstruction of real client data. To address this limitation, we propose ST-GIA+, which utilizes an auxiliary language model to guide the search for potential locations, thereby successfully reconstructing the original data from gradients. In addition, we design an adaptive defense strategy to mitigate gradient inversion attacks in spatiotemporal federated learning. By dynamically adjusting the perturbation levels, we can offer tailored protection for varying rounds of training data, thereby achieving a better trade-off between privacy and utility than current state-of-the-art methods. Through intensive experimental analysis on three real-world datasets, we reveal that the proposed defense strategy can well preserve the utility of spatiotemporal federated learning with effective security protection.

arxiv情報

著者 Lele Zheng,Yang Cao,Renhe Jiang,Kenjiro Taura,Yulong Shen,Sheng Li,Masatoshi Yoshikawa
発行日 2024-10-21 15:48:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Extracting Spatiotemporal Data from Gradients with Large Language Models はコメントを受け付けていません

Integer linear programming for unsupervised training set selection in molecular machine learning

要約

整数線形計画法 (ILP) は、線形最適化問題を解決する洗練されたアプローチであり、当然整数決定変数を使用して記述されます。
物理学にヒントを得た機械学習を化学に適用するという文脈の中で、サイズに及ぶ特性を予測するための分子トレーニング セットを選択するための ILP 定式化の関連性を実証します。
特にトレーニング セットに存在するものより大きな分子の特性を予測する場合、私たちのアルゴリズムが既存の教師なしトレーニング セット選択アプローチよりも優れたパフォーマンスを発揮することを示します。
パフォーマンスが向上した理由は、局所的な類似性 (つまり、原子ごと) の概念に基づいた選択と、最適なソリューションを効率的に見つける独自の ILP アプローチによるものであると私たちは主張します。
全体として、この研究は、物理学にインスピレーションを得た機械学習モデルのパフォーマンスを向上させる実用的なアルゴリズムを提供し、既存のトレーニング セット選択アプローチとの概念的な違いについての洞察を提供します。

要約(オリジナル)

Integer linear programming (ILP) is an elegant approach to solve linear optimization problems, naturally described using integer decision variables. Within the context of physics-inspired machine learning applied to chemistry, we demonstrate the relevance of an ILP formulation to select molecular training sets for predictions of size-extensive properties. We show that our algorithm outperforms existing unsupervised training set selection approaches, especially when predicting properties of molecules larger than those present in the training set. We argue that the reason for the improved performance is due to the selection that is based on the notion of local similarity (i.e., per-atom) and a unique ILP approach that finds optimal solutions efficiently. Altogether, this work provides a practical algorithm to improve the performance of physics-inspired machine learning models and offers insights into the conceptual differences with existing training set selection approaches.

arxiv情報

著者 Matthieu Haeberle,Puck van Gerwen,Ruben Laplaza,Ksenia R. Briling,Jan Weinreich,Friedrich Eisenbrand,Clemence Corminboeuf
発行日 2024-10-21 15:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph | Integer linear programming for unsupervised training set selection in molecular machine learning はコメントを受け付けていません

MNIST-Nd: a set of naturalistic datasets to benchmark clustering across dimensions

要約

記録技術の進歩により、多くの科学分野にわたって大規模な高次元データセットが出現しました。
特に生物学では、クラスタリングは、さまざまな種類の細胞の構成を理解するなど、そのようなデータセットの構造についての洞察を得るためによく使用されます。
ただし、現在のベンチマーク データセットはほとんど 2 次元であるため、次元の正確な影響は不明ですが、クラスタリングは高次元まではうまくスケーリングできないことが知られています。
ここでは、実世界のデータセットの重要な特性、つまり個々のサンプルにノイズが多く、クラスターが完全に分離していないという特性を共有する合成データセットのセットである MNIST-Nd を提案します。
MNIST-Nd は、MNIST 上で 2 ~ 64 の潜在次元を持つ混合変分オートエンコーダーをトレーニングすることによって取得され、その結果、同等の構造を持つが次元が異なる 6 つのデータセットが得られます。
したがって、クラスタリングに対する次元の影響を解きほぐす機会が得られます。
MNIST-Nd の予備的な共通クラスタリング アルゴリズム ベンチマークでは、ライデンが次元の拡大に対して最も堅牢であることが示唆されています。

要約(オリジナル)

Driven by advances in recording technology, large-scale high-dimensional datasets have emerged across many scientific disciplines. Especially in biology, clustering is often used to gain insights into the structure of such datasets, for instance to understand the organization of different cell types. However, clustering is known to scale poorly to high dimensions, even though the exact impact of dimensionality is unclear as current benchmark datasets are mostly two-dimensional. Here we propose MNIST-Nd, a set of synthetic datasets that share a key property of real-world datasets, namely that individual samples are noisy and clusters do not perfectly separate. MNIST-Nd is obtained by training mixture variational autoencoders with 2 to 64 latent dimensions on MNIST, resulting in six datasets with comparable structure but varying dimensionality. It thus offers the chance to disentangle the impact of dimensionality on clustering. Preliminary common clustering algorithm benchmarks on MNIST-Nd suggest that Leiden is the most robust for growing dimensions.

arxiv情報

著者 Polina Turishcheva,Laura Hansel,Martin Ritzert,Marissa A. Weis,Alexander S. Ecker
発行日 2024-10-21 15:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | MNIST-Nd: a set of naturalistic datasets to benchmark clustering across dimensions はコメントを受け付けていません

Theoretical Insights into Line Graph Transformation on Graph Learning

要約

折れ線グラフの変換はグラフ理論で広く研究されており、折れ線グラフの各ノードは元のグラフのエッジに対応します。
これは、変換された折れ線グラフに適用される一連のグラフ ニューラル ネットワーク (GNN) のインスピレーションとなり、さまざまなグラフ表現学習タスクで効果的であることが証明されました。
ただし、折れ線グラフ変換が GNN モデルの表現力にどのような影響を与えるかについての理論的研究は限られています。
この研究では、Weisfeiler-Leman (WL) 検定が困難であることが知られている 2 種類のグラフ、Cai-F\’urer-Immerman (CFI) グラフと強い正則グラフに焦点を当て、折れ線グラフ変換の適用が役立つことを示します。
これらの困難なグラフのプロパティを除外することで、これらのグラフを区別する際の WL テストを支援できる可能性があります。
これらのグラフ構造タイプ全体で、線変換されたグラフと元のグラフの両方でグラフ同型性テストと GNN の精度と効率を比較する一連の実験を実行することにより、結果を経験的に検証します。

要約(オリジナル)

Line graph transformation has been widely studied in graph theory, where each node in a line graph corresponds to an edge in the original graph. This has inspired a series of graph neural networks (GNNs) applied to transformed line graphs, which have proven effective in various graph representation learning tasks. However, there is limited theoretical study on how line graph transformation affects the expressivity of GNN models. In this study, we focus on two types of graphs known to be challenging to the Weisfeiler-Leman (WL) tests: Cai-F\’urer-Immerman (CFI) graphs and strongly regular graphs, and show that applying line graph transformation helps exclude these challenging graph properties, thus potentially assist WL tests in distinguishing these graphs. We empirically validate our findings by conducting a series of experiments that compare the accuracy and efficiency of graph isomorphism tests and GNNs on both line-transformed and original graphs across these graph structure types.

arxiv情報

著者 Fan Yang,Xingyue Huang
発行日 2024-10-21 16:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.CO, stat.ML | Theoretical Insights into Line Graph Transformation on Graph Learning はコメントを受け付けていません

Modelling Structured Data Learning with Restricted Boltzmann Machines in the Teacher-Student Setting

要約

制限付きボルツマン マシン (RBM) は、豊富な基礎構造を持つデータを学習できる生成モデルです。
私たちは、教師 RBM によって生成された構造化データを生徒 RBM が学習する教師と生徒の設定を研究します。
データ内の構造の量は、教師の隠れユニットの数と重みの行の相関関係 (別名パターン) を調整することによって制御されます。
相関関係がない場合、パフォーマンスは教師のパターンと生徒の RBM の隠れユニットの数に依存しないという推測が検証され、教師と生徒の設定は宝くじを研究するためのおもちゃのモデルとして使用できると主張します。
仮説。
この体制を超えると、教師パターンを学習するために必要な重要なデータ量が、その数と相関関係の両方とともに減少することがわかります。
どちらの領域でも、比較的大規模なデータセットであっても、正則化に使用される推論温度が低すぎると教師パターンを学習することが不可能になることがわかります。
私たちのフレームワークでは、生徒は教師のパターンを 1 対 1 または多対 1 で学習でき、2 つの隠れユニットによる教師と生徒の設定に関する以前の発見を、任意の有限数の隠れユニットに一般化します。

要約(オリジナル)

Restricted Boltzmann machines (RBM) are generative models capable to learn data with a rich underlying structure. We study the teacher-student setting where a student RBM learns structured data generated by a teacher RBM. The amount of structure in the data is controlled by adjusting the number of hidden units of the teacher and the correlations in the rows of the weights, a.k.a. patterns. In the absence of correlations, we validate the conjecture that the performance is independent of the number of teacher patters and hidden units of the student RBMs, and we argue that the teacher-student setting can be used as a toy model for studying the lottery ticket hypothesis. Beyond this regime, we find that the critical amount of data required to learn the teacher patterns decreases with both their number and correlations. In both regimes, we find that, even with an relatively large dataset, it becomes impossible to learn the teacher patterns if the inference temperature used for regularization is kept too low. In our framework, the student can learn teacher patterns one-to-one or many-to-one, generalizing previous findings about the teacher-student setting with two hidden units to any arbitrary finite number of hidden units.

arxiv情報

著者 Robin Thériault,Francesco Tosello,Daniele Tantari
発行日 2024-10-21 16:18:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG | Modelling Structured Data Learning with Restricted Boltzmann Machines in the Teacher-Student Setting はコメントを受け付けていません

Unsupervised Replay Strategies for Continual Learning with Limited Data

要約

人工ニューラル ネットワーク (ANN) は、トレーニング データが不足しているか不均衡であるとパフォーマンスが制限され、新しいタスクのトレーニング後に以前に学習したデータを忘れてしまうなど、継続的な学習に関する課題に直面しています。
対照的に、人間の脳は、ほんの数例から継続的に学習することができます。
この研究では、限定的で不均衡なデータセット、特に MNIST と Fashion MNIST を使用して段階的にトレーニングされた ANN に対する、局所ヘビアン学習ルールによる確率的活性化を組み込んだ教師なしフェーズである「睡眠」の影響を調査します。
私たちは、睡眠フェーズを導入すると、限られたデータでトレーニングされたモデルの精度が大幅に向上することを発見しました。
いくつかのタスクを連続してトレーニングした場合、スリープ リプレイは、新しいタスクのトレーニング後に壊滅的に忘れ去られていた以前に学習した情報を救い出すだけでなく、以前のタスク、特に限られたデータでトレーニングされたタスクのパフォーマンスを向上させることがよくありました。
この研究は、ANNにおける学習効率の向上と継続的な学習の促進における睡眠再生の多面的な役割を強調しています。

要約(オリジナル)

Artificial neural networks (ANNs) show limited performance with scarce or imbalanced training data and face challenges with continuous learning, such as forgetting previously learned data after new tasks training. In contrast, the human brain can learn continuously and from just a few examples. This research explores the impact of ‘sleep’, an unsupervised phase incorporating stochastic activation with local Hebbian learning rules, on ANNs trained incrementally with limited and imbalanced datasets, specifically MNIST and Fashion MNIST. We discovered that introducing a sleep phase significantly enhanced accuracy in models trained with limited data. When a few tasks were trained sequentially, sleep replay not only rescued previously learned information that had been catastrophically forgetting following new task training but often enhanced performance in prior tasks, especially those trained with limited data. This study highlights the multifaceted role of sleep replay in augmenting learning efficiency and facilitating continual learning in ANNs.

arxiv情報

著者 Anthony Bazhenov,Pahan Dewasurendra,Giri P. Krishnan,Jean Erik Delanois
発行日 2024-10-21 16:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Unsupervised Replay Strategies for Continual Learning with Limited Data はコメントを受け付けていません