An Out-Of-Distribution Membership Inference Attack Approach for Cross-Domain Graph Attacks

要約

グラフニューラルネットワークベースの方法は、ターゲットに関するトポロジー構造の導入により、プライバシーの漏れリスクに直面しています。これにより、攻撃者は、敏感な属性に関するターゲットの事前知識をバイパスし、トポロジー分布を観察および分析することによりメンバーシップ推論攻撃(MIA)を実現できます。
プライバシーの懸念が高まるにつれて、攻撃者が同じ分布で補助データセットを取得できると仮定するMIAの仮定は、ますます現実から逸脱しています。
このホワイトペーパーでは、現実世界のMIAシナリオの分布多様性の問題を、分散除外(OOD)問題として分類し、クロスドメイングラフ攻撃を実現するための新しいグラフOODメンバーシップ推論攻撃(Good-MIA)を提案します。
具体的には、さまざまなドメインからの分布を備えたシャドーサブグラフを構築して、実際のデータの多様性をモデル化します。
次に、外部の影響下で変化しない安定したノード表現を調査し、交絡環境から冗長な情報を排除し、タスク関連の重要な情報を抽出して、トレーニングデータの特性と目に見えないデータをより明確に区別することを検討します。
このOODベースの設計により、クロスドメイングラフ攻撃が可能になります。
最後に、攻撃の推論中に攻撃のドメイン適応性を最適化するために、リスク外挿を実行して、攻撃を他のドメインに一般化します。
実験結果は、グッドミアが複数のドメイン向けに設計されたデータセットで優れた攻撃性能を達成することを示しています。

要約(オリジナル)

Graph Neural Network-based methods face privacy leakage risks due to the introduction of topological structures about the targets, which allows attackers to bypass the target’s prior knowledge of the sensitive attributes and realize membership inference attacks (MIA) by observing and analyzing the topology distribution. As privacy concerns grow, the assumption of MIA, which presumes that attackers can obtain an auxiliary dataset with the same distribution, is increasingly deviating from reality. In this paper, we categorize the distribution diversity issue in real-world MIA scenarios as an Out-Of-Distribution (OOD) problem, and propose a novel Graph OOD Membership Inference Attack (GOOD-MIA) to achieve cross-domain graph attacks. Specifically, we construct shadow subgraphs with distributions from different domains to model the diversity of real-world data. We then explore the stable node representations that remain unchanged under external influences and consider eliminating redundant information from confounding environments and extracting task-relevant key information to more clearly distinguish between the characteristics of training data and unseen data. This OOD-based design makes cross-domain graph attacks possible. Finally, we perform risk extrapolation to optimize the attack’s domain adaptability during attack inference to generalize the attack to other domains. Experimental results demonstrate that GOOD-MIA achieves superior attack performance in datasets designed for multiple domains.

arxiv情報

著者 Jinyan Wang,Liu Yang,Yuecen Wei,Jiaxuan Si,Chenhao Guo,Qingyun Sun,Xianxian Li,Xingcheng Fu
発行日 2025-05-26 14:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | An Out-Of-Distribution Membership Inference Attack Approach for Cross-Domain Graph Attacks はコメントを受け付けていません

Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior

要約

通常、モデルの動作は、コンポーネント、データ、またはトレーニングの軌跡に隔離されていると考えています。
これは、統一された見解を欠いており、重要な相互作用を見逃す可能性がある説明につながります。
既存の方法を組み合わせたり、さまざまなトレーニング段階で適用したりする一方で、より広範な洞察が得られますが、これらのアプローチには通常、理論的なサポートがありません。
この作業では、3つの視点すべてを統合する統合されたフレームワークである説明を提示します。
まず、グラデーションパスカーネルに関する最近の作業を一般化します。これは、勾配降下によってカーネルマシンとして訓練されたモデルをより現実的なトレーニング設定に再統合します。
経験的には、CNNモデルとトランスモデルの両方が、この再定式化によって正確に複製されることがわかります。
第二に、カーネル機能マップから新しいパラメーターと段階的な影響スコアを導き出します。
既存の方法に匹敵するパラメーター剪定におけるそれらの有効性を示し、モデルコンポーネントの属性の価値を強化します。
最後に、トレーニングプロセスでモデルコンポーネントとデータを共同で解釈すると、説明が活用してグローキングを示す変圧器を分析します。
とりわけ、私たちの調査結果は、以前に提案されたグローキングの段階をサポートしている一方で、記憶段階の後に学んだ表現パイプラインの周りの入力埋め込みと最終層のアラインメントの1つとして最終段階を改良します。
全体として、説明は、モデルの動作とトレーニングのダイナミクスを解釈するための理論的に根拠のある統合されたフレームワークを提供します。

要約(オリジナル)

Post-hoc interpretability methods typically attribute a model’s behavior to its components, data, or training trajectory in isolation. This leads to explanations that lack a unified view and may miss key interactions. While combining existing methods or applying them at different training stages offers broader insights, these approaches usually lack theoretical support. In this work, we present ExPLAIND, a unified framework that integrates all three perspectives. First, we generalize recent work on gradient path kernels, which reformulate models trained by gradient descent as a kernel machine, to more realistic training settings. Empirically, we find that both a CNN and a Transformer model are replicated accurately by this reformulation. Second, we derive novel parameter- and step-wise influence scores from the kernel feature maps. We show their effectiveness in parameter pruning that is comparable to existing methods, reinforcing their value for model component attribution. Finally, jointly interpreting model components and data over the training process, we leverage ExPLAIND to analyze a Transformer that exhibits Grokking. Among other things, our findings support previously proposed stages of Grokking, while refining the final phase as one of alignment of input embeddings and final layers around a representation pipeline learned after the memorization phase. Overall, ExPLAIND provides a theoretically grounded, unified framework to interpret model behavior and training dynamics.

arxiv情報

著者 Florian Eichin,Yupei Du,Philipp Mondorf,Barbara Plank,Michael A. Hedderich
発行日 2025-05-26 14:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior はコメントを受け付けていません

A fast sound power prediction tool for genset noise using machine learning

要約

このホワイトペーパーでは、機械学習回帰アルゴリズムKernel Ridge Regression(KRR)、Huber Regressor(HR)、およびGaussian Process Regression(GPR)の適用を調査し、ジェンセットの健全な電力レベルを予測し、早期入札プロセス中にマーケティングチームと営業チームに大きな価値を提供します。
エンジンのサイズとジェンセットエンクロージャーの寸法が暫定的であり、測定されたノイズデータが利用できない場合、これらのアルゴリズムは、構築されていないジェンセットの信頼できるノイズレベルの推定を有効にします。
この研究では、ISO 3744基準を順守している半抗波室のCummins Acoustics Technology Center(ATC)で実施された100を超える実験からの高忠実度データセットを利用しています。
入札および初期設計段階から容易に利用できる情報を使用することにより、KRRは5 DBA以内の平均精度でサウンドパワーを予測します。
HRとGPRはわずかに高い予測エラーを示していますが、すべてのモデルは、さまざまなジェンセット構成にわたって全体的なノイズトレンドを効果的にキャプチャします。
これらの発見は、ジェンセット設計における初期段階の騒音推定の有望な方法を示しています。

要約(オリジナル)

This paper investigates the application of machine learning regression algorithms Kernel Ridge Regression (KRR), Huber Regressor (HR), and Gaussian Process Regression (GPR) for predicting sound power levels of gensets, offering significant value for marketing and sales teams during the early bidding process. When engine sizes and genset enclosure dimensions are tentative, and measured noise data is unavailable, these algorithms enable reliable noise level estimation for unbuilt gensets. The study utilizes high fidelity datasets from over 100 experiments conducted at Cummins Acoustics Technology Center (ATC) in a hemi-anechoic chamber, adhering to ISO 3744 standards. By using readily available information from the bidding and initial design stages, KRR predicts sound power with an average accuracy of within 5 dBA. While HR and GPR show slightly higher prediction errors, all models effectively capture the overall noise trends across various genset configurations. These findings present a promising method for early-stage noise estimation in genset design.

arxiv情報

著者 Saurabh Pargal,Abhijit A. Sane
発行日 2025-05-26 14:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.app-ph | A fast sound power prediction tool for genset noise using machine learning はコメントを受け付けていません

Spurious Privacy Leakage in Neural Networks

要約

ニューラルネットワークは、機密データを盗むことを目的としたプライバシー攻撃に対して脆弱です。
リスクは、特にモデルが限られた偏ったデータでトレーニングされている場合、実際のシナリオで増幅することができます。
この作業では、プライバシーの脆弱性に対する偽の相関バイアスの影響を調査します。
\ empons {Smpourious Privacy Leakage}を紹介します。これは、偽のグループが非スパイアスグループよりもプライバシー攻撃に対して著しく脆弱である現象です。
さらに、グループプライバシーの格差は、偽の機能が持続するため、より単純な目標(例:クラスの少ない)でタスクの増加を増加させることを示しています。
驚くべきことに、スプリアスな堅牢な方法を使用したスプリアスな相関を減らすことは、スプリアスプライバシーの漏れを軽減しないことがわかります。
これにより、印象に基づいたプライバシーの格差に関する視点を導入することになります。この視点は、偽の相関を軽減しても、偽のデータの記憶を軽減しないため、プライバシーレベルでもありません。
最後に、偽のデータでトレーニングされたさまざまなモデルアーキテクチャのプライバシーを比較し、以前の作品とは反対に、アーキテクチャの選択がプライバシーの結果に影響を与える可能性があることを示しています。

要約(オリジナル)

Neural networks are vulnerable to privacy attacks aimed at stealing sensitive data. The risks can be amplified in a real-world scenario, particularly when models are trained on limited and biased data. In this work, we investigate the impact of spurious correlation bias on privacy vulnerability. We introduce \emph{spurious privacy leakage}, a phenomenon where spurious groups are significantly more vulnerable to privacy attacks than non-spurious groups. We further show that group privacy disparity increases in tasks with simpler objectives (e.g. fewer classes) due to the persistence of spurious features. Surprisingly, we find that reducing spurious correlation using spurious robust methods does not mitigate spurious privacy leakage. This leads us to introduce a perspective on privacy disparity based on memorization, where mitigating spurious correlation does not mitigate the memorization of spurious data, and therefore, neither the privacy level. Lastly, we compare the privacy of different model architectures trained with spurious data, demonstrating that, contrary to prior works, architectural choice can affect privacy outcomes.

arxiv情報

著者 Chenxiang Zhang,Jun Pang,Sjouke Mauw
発行日 2025-05-26 15:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Spurious Privacy Leakage in Neural Networks はコメントを受け付けていません

Transformer in Protein: A Survey

要約

タンパク質情報学が急速に進むにつれて、予測精度、構造分析、および機能的理解の向上の需要が強化されています。
強力な深い学習アーキテクチャとしての変圧器モデルは、タンパク質研究全体の多様な課題に対処する上で前例のない可能性を実証しています。
ただし、この分野でのトランスアプリケーションの包括的なレビューはまだ不足しています。
このペーパーは、100を超える研究を調査することにより、このギャップを橋渡しし、タンパク質関連のタスクにおける変圧器の実用的な実装と研究の進歩の詳細な分析を提供します。
私たちのレビューは、タンパク質構造の予測、機能予測、タンパク質 – タンパク質相互作用分析、機能的注釈、および創薬/ターゲットの識別など、重要なドメインを体系的にカバーしています。
さまざまなタンパク質ドメインでこれらの進歩を文脈化するために、ドメイン指向の分類システムを採用します。
最初に基本的な概念を紹介します:トランスアーキテクチャと注意メカニズム、タンパク質科学に合わせた変圧器のバリアントを分類し、本質的なタンパク質知識を要約します。
各研究ドメインについて、その目的と背景の概要を説明し、以前の方法とその制限を批判的に評価し、トランスモデルによって可能になった変革的貢献を強調します。
また、再現性とベンチマークを促進するために、重要なデータセットとオープンソースコードリソースをキュレートして要約します。
最後に、トランスをタンパク質情報学に適用する際の持続的な課題について説明し、将来の研究の方向性を提案します。
このレビューの目的は、変圧器とタンパク質の情報学の相乗的な統合のための統合された基盤を提供し、現場でのさらなる革新と拡大されたアプリケーションを促進することを目的としています。

要約(オリジナル)

As protein informatics advances rapidly, the demand for enhanced predictive accuracy, structural analysis, and functional understanding has intensified. Transformer models, as powerful deep learning architectures, have demonstrated unprecedented potential in addressing diverse challenges across protein research. However, a comprehensive review of Transformer applications in this field remains lacking. This paper bridges this gap by surveying over 100 studies, offering an in-depth analysis of practical implementations and research progress of Transformers in protein-related tasks. Our review systematically covers critical domains, including protein structure prediction, function prediction, protein-protein interaction analysis, functional annotation, and drug discovery/target identification. To contextualize these advancements across various protein domains, we adopt a domain-oriented classification system. We first introduce foundational concepts: the Transformer architecture and attention mechanisms, categorize Transformer variants tailored for protein science, and summarize essential protein knowledge. For each research domain, we outline its objectives and background, critically evaluate prior methods and their limitations, and highlight transformative contributions enabled by Transformer models. We also curate and summarize pivotal datasets and open-source code resources to facilitate reproducibility and benchmarking. Finally, we discuss persistent challenges in applying Transformers to protein informatics and propose future research directions. This review aims to provide a consolidated foundation for the synergistic integration of Transformer and protein informatics, fostering further innovation and expanded applications in the field.

arxiv情報

著者 Xiaowen Ling,Zhiqiang Li,Yanbin Wang,Zhuhong You
発行日 2025-05-26 15:08:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, q-bio.QM | Transformer in Protein: A Survey はコメントを受け付けていません

Generative diffusion for perceptron problems: statistical physics analysis and efficient algorithms

要約

多数の例の高次元的な制限における非凸型パーセプトロン問題のランダムなインスタンスを考慮します$ m $と重量$ n $を使用して、有限の負荷$ \ alpha = m/n $を使用します。
レプリカ理論に基づいた形式を開発し、生成拡散アルゴリズムを使用してソリューション空間を効率的にサンプリングする基本的な制限を予測します。
負のマージン$ \ kappa $を持つ球状のパーセプトロンの場合、$ \ alpha- \ kappa $平面のレプリカ対称領域のほとんどで溶液上の均一な分布を効率的にサンプリングできることがわかります。
対照的に、バイナリの重みの場合、均一な分布からのサンプリングは扱いにくいままです。
この閉塞の理論的分析により、潜在的な$ u(s)= – \ log(s)$を特定することになります。その下では、対応する傾斜分布は拡散により効率的にサンプル可能になります。
さらに、このポテンシャルの形状をめぐるアニーリング手順により、バイナリパーセプトロンのソリューション空間をサンプリングするための高速で堅牢なマルコフチェーンモンテカルロアルゴリズムが得られることを数値的に示します。

要約(オリジナル)

We consider random instances of non-convex perceptron problems in the high-dimensional limit of a large number of examples $M$ and weights $N$, with finite load $\alpha = M/N$. We develop a formalism based on replica theory to predict the fundamental limits of efficiently sampling the solution space using generative diffusion algorithms, conjectured to be saturated when the score function is provided by Approximate Message Passing. For the spherical perceptron with negative margin $\kappa$, we find that the uniform distribution over solutions can be efficiently sampled in most of the Replica Symmetric region of the $\alpha-\kappa$ plane. In contrast, for binary weights, sampling from the uniform distribution remains intractable. A theoretical analysis of this obstruction leads us to identify a potential $U(s) = -\log(s)$, under which the corresponding tilted distribution becomes efficiently samplable via diffusion. Moreover, we show numerically that an annealing procedure over the shape of this potential yields a fast and robust Markov Chain Monte Carlo algorithm for sampling the solution space of the binary perceptron.

arxiv情報

著者 Elizaveta Demyanenko,Davide Straziota,Carlo Baldassi,Carlo Lucibello
発行日 2025-05-26 15:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG | Generative diffusion for perceptron problems: statistical physics analysis and efficient algorithms はコメントを受け付けていません

From Tables to Time: How TabPFN-v2 Outperforms Specialized Time Series Forecasting Models

要約

多くのトレーニングデータを必要とせずに予測を提供する能力により、基礎モデルは予測にますます人気があります。
この作業では、一般的な表形式の基礎モデルであるTABPFN-V2が、時系列予測にどのように効果的に適用できるかを示します。
TABPFN-TSを紹介します。これは、TABPFN-V2と軽量機能エンジニアリングを組み合わせて、ポイントと確率の両方の予測を可能にする簡単な方法です。
そのシンプルさとコンパクトなサイズ(11mパラメーター)にもかかわらず、TabpFN-TSは、両方の予測タスクでパブリックギフトイベルリーダーボードのトップランクを達成します。
アブレーション研究を通じて、この驚くべき有効性に寄与する要因を調査します。特に、TABPFN-V2が時系列にさらされることなく合成表形式データのみで前提とされていることを考慮しています。
私たちの結果は、時系列予測の貴重な新しいアプローチとして、Tabpfn-V2のような表形式の基礎モデルの可能性を強調しています。
実装は、https://github.com/priorlabs/tabpfn-time-seriesで入手できます。

要約(オリジナル)

Foundation models have become increasingly popular for forecasting due to their ability to provide predictions without requiring a lot of training data. In this work, we demonstrate how TabPFN-v2, a general tabular foundation model, can be effectively applied to time series forecasting. We introduce TabPFN-TS, a simple method that combines TabPFN-v2 with lightweight feature engineering to enable both point and probabilistic forecasting. Despite its simplicity and compact size (11M parameters), TabPFN-TS achieves top rank on the public GIFT-Eval leaderboard in both forecasting tasks. Through ablation studies, we investigate factors contributing to this surprising effectiveness, especially considering TabPFN-v2 was pretrained solely on synthetic tabular data with no exposure to time series. Our results highlights the potential of tabular foundation models like TabPFN-v2 as a valuable new approach for time series forecasting. Our implementation is available at https://github.com/PriorLabs/tabpfn-time-series.

arxiv情報

著者 Shi Bin Hoo,Samuel Müller,David Salinas,Frank Hutter
発行日 2025-05-26 15:25:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | From Tables to Time: How TabPFN-v2 Outperforms Specialized Time Series Forecasting Models はコメントを受け付けていません

Balancing Interference and Correlation in Spatial Experimental Designs: A Causal Graph Cut Approach

要約

このホワイトペーパーでは、実験データから得られた情報の量を最適化し、結果として生じる因果効果推定器の精度を高めるための空間実験の設計に焦点を当てています。
推定器の平均二乗誤差(MSE)の代理関数を提案します。これにより、最適な設計を学習するために古典的なグラフカットアルゴリズムの使用が容易になります。
私たちの提案は、3つの重要な進歩を提供します。(1)中程度から大きな空間干渉効果に対応します。
(2)異なる空間共分散関数に適応します。
(3)計算上効率的です。
合成環境と都市規模のライドシェアリング市場をモデル化するディスパッチシミュレーターに基づく理論的結果と数値実験により、設計の有効性がさらに検証されます。
メソッドのPython実装は、https://github.com/mamba413/causalgraphcutで入手できます。

要約(オリジナル)

This paper focuses on the design of spatial experiments to optimize the amount of information derived from the experimental data and enhance the accuracy of the resulting causal effect estimator. We propose a surrogate function for the mean squared error (MSE) of the estimator, which facilitates the use of classical graph cut algorithms to learn the optimal design. Our proposal offers three key advances: (1) it accommodates moderate to large spatial interference effects; (2) it adapts to different spatial covariance functions; (3) it is computationally efficient. Theoretical results and numerical experiments based on synthetic environments and a dispatch simulator that models a city-scale ridesharing market, further validate the effectiveness of our design. A python implementation of our method is available at https://github.com/Mamba413/CausalGraphCut.

arxiv情報

著者 Zhu Jin,Li Jingyi,Zhou Hongyi,Lin Yinan,Lin Zhenhua,Shi Chengchun
発行日 2025-05-26 15:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML | Balancing Interference and Correlation in Spatial Experimental Designs: A Causal Graph Cut Approach はコメントを受け付けていません

MolEditRL: Structure-Preserving Molecular Editing via Discrete Diffusion and Reinforcement Learning

要約

分子編集は、特定の分子を修正して、構造的類似性を維持しながら、望ましい化学特性を最適化することを目的としています。
ただし、現在のアプローチは通常、ストリングベースの表現または連続表現に依存しており、分子の離散的なグラフ構造化された性質を適切にキャプチャできず、構造的忠実度が限られており、制御性が低下します。
この論文では、構造的制約を正確な特性最適化と明示的に統合する分子編集フレームワークであるMoleditRLを提案します。
具体的には、moleditrlは2つの段階で構成されています。(1)ソース構造と自然言語の指示に条件付けられた標的分子を再構築するために前処理された離散グラフ拡散モデル。
(2)グラフ制約の下で編集決定を明示的に最適化することにより、プロパティの整合性と構造的保存をさらに強化する編集補強学習微調整段階。
包括的な評価のために、10の化学属性にわたる単一およびマルチプロパティタスクにまたがる300万の多様な例で構成される最大かつ最も豊富な分子編集データセットであるMoledit-Instructを構築します。
実験結果は、Moleditrlがプロパティの最適化精度と構造的忠実度の両方で最先端の方法を大幅に上回り、成功率の編集で74 \%の改善を達成し、98 \%のパラメーターを使用していることを示しています。

要約(オリジナル)

Molecular editing aims to modify a given molecule to optimize desired chemical properties while preserving structural similarity. However, current approaches typically rely on string-based or continuous representations, which fail to adequately capture the discrete, graph-structured nature of molecules, resulting in limited structural fidelity and poor controllability. In this paper, we propose MolEditRL, a molecular editing framework that explicitly integrates structural constraints with precise property optimization. Specifically, MolEditRL consists of two stages: (1) a discrete graph diffusion model pretrained to reconstruct target molecules conditioned on source structures and natural language instructions; (2) an editing-aware reinforcement learning fine-tuning stage that further enhances property alignment and structural preservation by explicitly optimizing editing decisions under graph constraints. For comprehensive evaluation, we construct MolEdit-Instruct, the largest and most property-rich molecular editing dataset, comprising 3 million diverse examples spanning single- and multi-property tasks across 10 chemical attributes. Experimental results demonstrate that MolEditRL significantly outperforms state-of-the-art methods in both property optimization accuracy and structural fidelity, achieving a 74\% improvement in editing success rate while using 98\% fewer parameters.

arxiv情報

著者 Yuanxin Zhuang,Dazhong Shen,Ying Sun
発行日 2025-05-26 15:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | MolEditRL: Structure-Preserving Molecular Editing via Discrete Diffusion and Reinforcement Learning はコメントを受け付けていません

InfoBridge: Mutual Information estimation via Bridge Matching

要約

拡散ブリッジモデルは最近、生成モデリングの分野で強力なツールになりました。
この作業では、機械学習と情報理論における別の重要な問題、2つのランダム変数間の相互情報(MI)の推定に対処するために、彼らの力を活用します。
拡散橋の理論を使用することにより、従来のMI推定器に困難をもたらすデータの公平な推定器を構築できることを示します。
2つの標準MI推定ベンチマーク、つまり低次元および画像ベース、つまりタンパク質言語モデルの埋め込みでの2つの標準MI推定ベンチマーク、つまり、低次元および画像ベースのパフォーマンスを紹介します。

要約(オリジナル)

Diffusion bridge models have recently become a powerful tool in the field of generative modeling. In this work, we leverage their power to address another important problem in machine learning and information theory, the estimation of the mutual information (MI) between two random variables. We show that by using the theory of diffusion bridges, one can construct an unbiased estimator for data posing difficulties for conventional MI estimators. We showcase the performance of our estimator on two standard MI estimation benchmarks, i.e., low-dimensional and image-based, and on real-world data, i.e., protein language model embeddings.

arxiv情報

著者 Sergei Kholkin,Ivan Butakov,Evgeny Burnaev,Nikita Gushchin,Alexander Korotin
発行日 2025-05-26 15:35:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | InfoBridge: Mutual Information estimation via Bridge Matching はコメントを受け付けていません