Coreset Spectral Clustering

要約

コアセットは、少数のクラスターを含む大規模なデータセットで$ k $ -means and kernel $ k $ k $ -meansクラスタリングの問題を解くための非常に貴重なツールになりました。
一方、スペクトルクラスタリングはスパースグラフでうまく機能し、最近、多数のクラスターに効率的にスケーリングするように拡張されました。
カーネル$ k $ meansと正規化されたカット問題との間の接続を活用して、両方の利点を組み合わせます。
私たちの主な結果は、元のグラフの適切なラベル付けを推測するためにコアセットグラフをクラスターするグラフのコアセットスペクトルクラスタリングアルゴリズムです。
CoreSetグラフの正規化されたカット問題の$ \ alpha $ -Approximationは、$ o(\ alpha)$ – 元の近似であることを証明します。
We also improve the running time of the state-of-the-art coreset algorithm for kernel $k$-means on sparse kernels, from $\tilde{O}(nk)$ to $\tilde{O}(n\cdot \min \{k, d_{avg}\})$, where $d_{avg}$ is the average number of non-zero
$ n \ times n $カーネルマトリックスの各行のエントリ。
私たちの実験は、私たちのコアセットアルゴリズムが多くのクラスターを備えた大きな現実世界グラフで漸近的に速くなることを確認し、クラスタリングアルゴリズムが、ローカルオプティマに詰まっているスパースカーネルのコアセットカーネル$ k $ -meansが直面する主な課題を克服することを示しています。

要約(オリジナル)

Coresets have become an invaluable tool for solving $k$-means and kernel $k$-means clustering problems on large datasets with small numbers of clusters. On the other hand, spectral clustering works well on sparse graphs and has recently been extended to scale efficiently to large numbers of clusters. We exploit the connection between kernel $k$-means and the normalised cut problem to combine the benefits of both. Our main result is a coreset spectral clustering algorithm for graphs that clusters a coreset graph to infer a good labelling of the original graph. We prove that an $\alpha$-approximation for the normalised cut problem on the coreset graph is an $O(\alpha)$-approximation on the original. We also improve the running time of the state-of-the-art coreset algorithm for kernel $k$-means on sparse kernels, from $\tilde{O}(nk)$ to $\tilde{O}(n\cdot \min \{k, d_{avg}\})$, where $d_{avg}$ is the average number of non-zero entries in each row of the $n\times n$ kernel matrix. Our experiments confirm our coreset algorithm is asymptotically faster on large real-world graphs with many clusters, and show that our clustering algorithm overcomes the main challenge faced by coreset kernel $k$-means on sparse kernels which is getting stuck in local optima.

arxiv情報

著者 Ben Jourdan,Gregory Schwartzman,Peter Macgregor,He Sun
発行日 2025-03-10 12:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG | Coreset Spectral Clustering はコメントを受け付けていません

PGD-Imp: Rethinking and Unleashing Potential of Classic PGD with Dual Strategies for Imperceptible Adversarial Attacks

要約

知覚できない敵対的な攻撃は、最近、研究の関心の高まりを引き付けました。
既存のメソッドは通常、単純な$ L_P $ -NORM以外の外部モジュールまたは損失項を攻撃プロセスに組み込み、そのような追加の設計は必要ないかもしれないと主張します。
この論文では、知覚できない攻撃の本質を再考し、最適化の観点からの知覚性のために、一般的で古典的な攻撃であるPGDの可能性を解き放つための2つの単純で効果的な戦略を提案します。
具体的には、動的なステップサイズが導入され、攻撃されたモデルの決定境界に向けて攻撃コストを最小限に抑えた最適なソリューションを見つけることができ、適応型早期停止戦略が採用され、敵対的摂動の冗長性の強度が最低レベルまで採用されます。
提案されているPGDに感受性(PGD-IMP)攻撃は、標的とターゲットの両方のシナリオの両方で、認知できない敵対的攻撃で最新の結果を達成します。
ResNet-50に対して非標的攻撃を実行すると、PGD-IMPは100 $ \%$(+0.3 $ \%$)ASR、0.89(-1.76)$ l_2 $距離、52.93(+9.2)PSNRを57S(-371)実行し、既存の方法を上回ることができます。

要約(オリジナル)

Imperceptible adversarial attacks have recently attracted increasing research interests. Existing methods typically incorporate external modules or loss terms other than a simple $l_p$-norm into the attack process to achieve imperceptibility, while we argue that such additional designs may not be necessary. In this paper, we rethink the essence of imperceptible attacks and propose two simple yet effective strategies to unleash the potential of PGD, the common and classical attack, for imperceptibility from an optimization perspective. Specifically, the Dynamic Step Size is introduced to find the optimal solution with minimal attack cost towards the decision boundary of the attacked model, and the Adaptive Early Stop strategy is adopted to reduce the redundant strength of adversarial perturbations to the minimum level. The proposed PGD-Imperceptible (PGD-Imp) attack achieves state-of-the-art results in imperceptible adversarial attacks for both untargeted and targeted scenarios. When performing untargeted attacks against ResNet-50, PGD-Imp attains 100$\%$ (+0.3$\%$) ASR, 0.89 (-1.76) $l_2$ distance, and 52.93 (+9.2) PSNR with 57s (-371s) running time, significantly outperforming existing methods.

arxiv情報

著者 Jin Li,Zitong Yu,Ziqiang He,Z. Jane Wang,Xiangui Kang
発行日 2025-03-10 12:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | PGD-Imp: Rethinking and Unleashing Potential of Classic PGD with Dual Strategies for Imperceptible Adversarial Attacks はコメントを受け付けていません

MC-GRU:a Multi-Channel GRU network for generalized nonlinear structural response prediction across structures

要約

地震反応の正確な予測と構造的損傷の定量化は、土木工学において重要です。
有限要素分析などの従来のアプローチには、特に極端な危険にさらされている複雑な構造システムの場合、計算効率が欠けている可能性があります。
最近、人工知能は、高度に非線形の動作を効率的にモデル化するための代替手段を提供しました。
ただし、既存のモデルは、多様な構造システム全体で一般化する際に課題に直面しています。
このペーパーでは、さまざまな構造の一般化された非線形構造応答予測を達成することを目的とした新しいマルチチャネルゲート再発ユニット(MC-GRU)ネットワークを提案します。
重要な概念は、マルチチャネル入力メカニズムをGRUに統合して、候補者の隠れた状態に構造情報を追加することでGRUに統合されています。これにより、ネットワークは多様な構造の動的特性を学習し、目に見えない構造への一般化可能性と適応性を強化します。
提案されたMC-Gruのパフォーマンスは、単一のフリードーム線形システム、ヒステリックブーカエシステム、および実験テストからの非線形補強コンクリートカラムなど、一連のケーススタディを通じて検証されます。
結果は、提案されたMC-Gruが、さまざまな構造の地震応答を正確に推測する能力を備えた既存の方法の主要な一般化可能性の問題を克服していることを示しています。
さらに、GRUやLSTMなどの従来のモデルと比較して、非線形構造ダイナミクスを表す際の強化された機能を示しています。

要約(オリジナル)

Accurate prediction of seismic responses and quantification of structural damage are critical in civil engineering. Traditional approaches such as finite element analysis could lack computational efficiency, especially for complex structural systems under extreme hazards. Recently, artificial intelligence has provided an alternative to efficiently model highly nonlinear behaviors. However, existing models face challenges in generalizing across diverse structural systems. This paper proposes a novel multi-channel gated recurrent unit (MC-GRU) network aimed at achieving generalized nonlinear structural response prediction for varying structures. The key concept lies in the integration of a multi-channel input mechanism to GRU with an extra input of structural information to the candidate hidden state, which enables the network to learn the dynamic characteristics of diverse structures and thus empower the generalizability and adaptiveness to unseen structures. The performance of the proposed MC-GRU is validated through a series of case studies, including a single-degree-of-freedom linear system, a hysteretic Bouc-Wen system, and a nonlinear reinforced concrete column from experimental testing. Results indicate that the proposed MC-GRU overcomes the major generalizability issues of existing methods, with capability of accurately inferring seismic responses of varying structures. Additionally, it demonstrates enhanced capabilities in representing nonlinear structural dynamics compared to traditional models such as GRU and LSTM.

arxiv情報

著者 Shan He,Ruiyang Zhang
発行日 2025-03-10 12:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MC-GRU:a Multi-Channel GRU network for generalized nonlinear structural response prediction across structures はコメントを受け付けていません

Interpretable deformable image registration: A geometric deep learning perspective

要約

変形可能な画像登録は、ほとんどの深い学習タスクとは異なり、複数の座標系の複雑な関係を考慮する必要がある挑戦的な問題を提起します。
データ駆動型の方法は、複雑な非線形変換をモデル化する有望な機能を示していますが、既存の作業は、それらが一般的なブラックボックスソルバーであると仮定して、標準的な深い学習アーキテクチャを採用しています。
ソースドメインとターゲットドメインの機能間でパターンマッチングを実行する操作をどのように実行するかを理解することが、堅牢でデータ効率の良い、解釈可能なアーキテクチャを構築するための鍵であると主張します。
解釈可能な登録フレームワークを設計するための理論的基礎を提示します:分離された特徴抽出と変形モデリング、動的受容フィールド、およびデータ駆動型変形は、両方の空間ドメイン間の関係の認識を機能させます。
この基盤に基づいて、粗から繊細な方法で変換を改良するエンドツーエンドのプロセスを策定します。
私たちのアーキテクチャは、幾何学的な深い学習原則を使用する空間的に連続的な変形モデリング機能を採用しているため、変換の連続した改良の間の通常のグリッドへの再サンプリングの問題のあるアプローチを回避します。
私たちは、私たちのアーキテクチャの興味深い解釈可能性特性を強調するために、定性的調査を実施します。
締めくくられて、モノとモーダル間の脳登録の両方の最先端のアプローチと、縦方向の網膜内登録の挑戦的なタスクについて、最先端のアプローチに対するパフォーマンスメトリックの大幅な改善を示します。
コードを公開しています

要約(オリジナル)

Deformable image registration poses a challenging problem where, unlike most deep learning tasks, a complex relationship between multiple coordinate systems has to be considered. Although data-driven methods have shown promising capabilities to model complex non-linear transformations, existing works employ standard deep learning architectures assuming they are general black-box solvers. We argue that understanding how learned operations perform pattern-matching between the features in the source and target domains is the key to building robust, data-efficient, and interpretable architectures. We present a theoretical foundation for designing an interpretable registration framework: separated feature extraction and deformation modeling, dynamic receptive fields, and a data-driven deformation functions awareness of the relationship between both spatial domains. Based on this foundation, we formulate an end-to-end process that refines transformations in a coarse-to-fine fashion. Our architecture employs spatially continuous deformation modeling functions that use geometric deep-learning principles, therefore avoiding the problematic approach of resampling to a regular grid between successive refinements of the transformation. We perform a qualitative investigation to highlight interesting interpretability properties of our architecture. We conclude by showing significant improvement in performance metrics over state-of-the-art approaches for both mono- and multi-modal inter-subject brain registration, as well as the challenging task of longitudinal retinal intra-subject registration. We make our code publicly available

arxiv情報

著者 Vasiliki Sideri-Lampretsa,Nil Stolt-Ansó,Huaqi Qiu,Julian McGinnis,Wenke Karbole,Martin Menten,Daniel Rueckert
発行日 2025-03-10 12:42:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Interpretable deformable image registration: A geometric deep learning perspective はコメントを受け付けていません

Efficient Distillation of Classifier-Free Guidance using Adapters

要約

条件付き拡散モデルには、分類器のないガイダンス(CFG)が不可欠ですが、推論ステップごとに神経関数評価(NFE)の数を2倍にします。
この非効率性を緩和するために、単一のフォワードパスでCFGをシミュレートする新しいアプローチであるAdapter Guidance Distillation(AGD)を紹介します。
AGDは軽量アダプターをレバレッジしてCFGを近似し、サンプルの品質を維持または改善しながら、サンプリング速度を効果的に2倍にします。
モデル全体を調整する以前のガイダンス蒸留方法とは異なり、AGDはベースモデルを凍結しておき、蒸留フェーズのリソース要件を大幅に削減するために最小限の追加パラメーター($ \ sim $ 2%)のみを訓練します。
さらに、このアプローチは元のモデルの重みを保持し、アダプターを同じベースモデルから派生した他のチェックポイントとシームレスに組み合わせることができます。
また、標準的な拡散軌跡の代わりにCFG誘導軌跡に関するトレーニングにより、既存のガイダンス蒸留方法のトレーニングと推論の間の重要な不一致に対処します。
広範な実験を通じて、AGDは、NFEの半分しかない複数のアーキテクチャでCFGに匹敵するまたは優れたFIDを達成することを示しています。
特に、私たちの方法により、24 GBのVRAMを備えた単一の消費者GPUに大きなモデル($ \ sim $ 260億ドルのパラメーター)が蒸留され、複数のハイエンドGPUを必要とする以前のアプローチよりもアクセスしやすくなります。
メソッドの実装を公開します。

要約(オリジナル)

While classifier-free guidance (CFG) is essential for conditional diffusion models, it doubles the number of neural function evaluations (NFEs) per inference step. To mitigate this inefficiency, we introduce adapter guidance distillation (AGD), a novel approach that simulates CFG in a single forward pass. AGD leverages lightweight adapters to approximate CFG, effectively doubling the sampling speed while maintaining or even improving sample quality. Unlike prior guidance distillation methods that tune the entire model, AGD keeps the base model frozen and only trains minimal additional parameters ($\sim$2%) to significantly reduce the resource requirement of the distillation phase. Additionally, this approach preserves the original model weights and enables the adapters to be seamlessly combined with other checkpoints derived from the same base model. We also address a key mismatch between training and inference in existing guidance distillation methods by training on CFG-guided trajectories instead of standard diffusion trajectories. Through extensive experiments, we show that AGD achieves comparable or superior FID to CFG across multiple architectures with only half the NFEs. Notably, our method enables the distillation of large models ($\sim$2.6B parameters) on a single consumer GPU with 24 GB of VRAM, making it more accessible than previous approaches that require multiple high-end GPUs. We will publicly release the implementation of our method.

arxiv情報

著者 Cristian Perez Jensen,Seyedmorteza Sadat
発行日 2025-03-10 12:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Efficient Distillation of Classifier-Free Guidance using Adapters はコメントを受け付けていません

A Systematic Review of ECG Arrhythmia Classification: Adherence to Standards, Fair Evaluation, and Embedded Feasibility

要約

心電図(ECG)シグナルの分類は、不整脈やその他の心臓条件の早期発見に不可欠です。
しかし、機械学習の進歩にもかかわらず、多くの研究は標準化プロトコルに従うことができず、パフォーマンス評価と現実世界の適用性の矛盾につながります。
さらに、ペースメーカー、ホルターモニター、ウェアラブルECGパッチなど、実用的な展開に不可欠なハードウェアの制約は、しばしば見落とされがちです。
実際の影響はリソース制約のデバイスの実現可能性に依存するため、継続的な監視には効率的な展開が重要です。
このレビューは、2017年から2024年の間に公開されたECG分類研究を体系的に分析し、E3C(組み込み、臨床、および比較基準)に準拠したものに焦点を当てています。これには、患者間のパラダイムの実装、医療機器の進歩(AAMI)の推奨事項の順守、埋め込みシステムのモデルのモデルが含まれます。
多くの研究が高い精度を報告していますが、患者に依存しないパーティション化とハードウェアの制限を適切に考慮する人はほとんどいません。
E3Cの基準を満たす最先端の方法を特定し、精度、推論時間、エネルギー消費、およびメモリ使用量の比較分析を実施します。
最後に、ECG分類モデルの公正な比較と実用的な適用性を確保するために、標準化されたレポートプラクティスを提案します。
これらのギャップに対処することにより、この研究は、将来の研究をより堅牢で臨床的に実行可能なECG分類システムに導くことを目的としています。

要約(オリジナル)

The classification of electrocardiogram (ECG) signals is crucial for early detection of arrhythmias and other cardiac conditions. However, despite advances in machine learning, many studies fail to follow standardization protocols, leading to inconsistencies in performance evaluation and real-world applicability. Additionally, hardware constraints essential for practical deployment, such as in pacemakers, Holter monitors, and wearable ECG patches, are often overlooked. Since real-world impact depends on feasibility in resource-constrained devices, ensuring efficient deployment is critical for continuous monitoring. This review systematically analyzes ECG classification studies published between 2017 and 2024, focusing on those adhering to the E3C (Embedded, Clinical, and Comparative Criteria), which include inter-patient paradigm implementation, compliance with Association for the Advancement of Medical Instrumentation (AAMI) recommendations, and model feasibility for embedded systems. While many studies report high accuracy, few properly consider patient-independent partitioning and hardware limitations. We identify state-of-the-art methods meeting E3C criteria and conduct a comparative analysis of accuracy, inference time, energy consumption, and memory usage. Finally, we propose standardized reporting practices to ensure fair comparisons and practical applicability of ECG classification models. By addressing these gaps, this study aims to guide future research toward more robust and clinically viable ECG classification systems.

arxiv情報

著者 Guilherme Silva,Pedro Silva,Gladston Moreira,Vander Freitas,Jadson Gertrudes,Eduardo Luz
発行日 2025-03-10 12:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A Systematic Review of ECG Arrhythmia Classification: Adherence to Standards, Fair Evaluation, and Embedded Feasibility はコメントを受け付けていません

SGD with memory: fundamental properties and stochastic acceleration

要約

重要なオープンな問題は、パワーロースペクトルの2次問題に関するミニバッチSGD型アルゴリズムの理論的に実行可能な加速です。
非確率設定では、損失収束の最適な指数$ \ xi $は、$ l_t \ sim c_lt^{ – \ xi} $がプレーンGDの2倍であり、適切なスケジュールで重いボール(HB)を使用して達成可能です。
これは、ミニバッチノイズの存在下では機能しなくなりました。
補助速度ベクトルの任意の固定数$ m $(*メモリ – $ m $ algorithms*)で1次方法を考慮することにより、この課題に対処します。
最初に、このようなアルゴリズムの2つの形式間の同等性を証明し、適切な特性多項式の観点からそれらを説明します。
次に、信号とノイズの繁殖者の観点から損失の一般的な拡大を開発します。
それを使用して、固定安定メモリの損失 – $ m $アルゴリズムは常にプレーンGDの指数$ \ xi $を保持しますが、HBのそれを一般化する実効学習率に応じて異なる定数$ c_l $を持つことができます。
メモリ-1アルゴリズムでは、安定性を維持しながら$ C_L $を任意に小さくすることができることを証明します。
結果として、プレーンSGDの指数$ \ xi $を改善するためにヒューリスティックおよび実験的に示す時間依存スケジュールを持つメモリ-1アルゴリズムを提案します。

要約(オリジナル)

An important open problem is the theoretically feasible acceleration of mini-batch SGD-type algorithms on quadratic problems with power-law spectrum. In the non-stochastic setting, the optimal exponent $\xi$ in the loss convergence $L_t\sim C_Lt^{-\xi}$ is double that in plain GD and is achievable using Heavy Ball (HB) with a suitable schedule; this no longer works in the presence of mini-batch noise. We address this challenge by considering first-order methods with an arbitrary fixed number $M$ of auxiliary velocity vectors (*memory-$M$ algorithms*). We first prove an equivalence between two forms of such algorithms and describe them in terms of suitable characteristic polynomials. Then we develop a general expansion of the loss in terms of signal and noise propagators. Using it, we show that losses of stationary stable memory-$M$ algorithms always retain the exponent $\xi$ of plain GD, but can have different constants $C_L$ depending on their effective learning rate that generalizes that of HB. We prove that in memory-1 algorithms we can make $C_L$ arbitrarily small while maintaining stability. As a consequence, we propose a memory-1 algorithm with a time-dependent schedule that we show heuristically and experimentally to improve the exponent $\xi$ of plain SGD.

arxiv情報

著者 Dmitry Yarotsky,Maksim Velikanov
発行日 2025-03-10 13:02:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | SGD with memory: fundamental properties and stochastic acceleration はコメントを受け付けていません

State Frequency Estimation for Anomaly Detection

要約

多くの作品は、Netflows内の異常を検出するための状態機械の有効性を研究しています。
これらの作品は通常、ラベルのないデータからモデルを学習し、発生の可能性やモデル内にどれだけうまく適合するかに基づいて、任意のトレースの異常スコアを計算します。
ただし、これらの方法は、テスト時に見られるトレースに基づいてスコアを動的に適応させるものではありません。
これは、敵が攻撃で一見一般的な痕跡を生成し、低い異常スコアを割り当てることでモデルを検出を見逃した場合に問題になります。
州のマシンの状態訪問頻度を使用して、異常検出のためにスコアリングを動的に適応させる新しい監視なしアプローチであるシーケントを提案します。
その後、Sequentはスコアを使用して、異常の根本原因を生成します。
これらはアラームのグループ化を可能にし、異常の分析を簡素化します。
3つの公開されているNetflowデータセットのネットワーク異常を検出する際のシーケントの有効性を評価し、そのパフォーマンスを既存のさまざまな異常検出方法と比較します。
私たちの評価は、状態マシンの状態訪問頻度を使用してネットワークの異常を検出するための有望な結果を示しています。

要約(オリジナル)

Many works have studied the efficacy of state machines for detecting anomalies within NetFlows. These works typically learn a model from unlabeled data and compute anomaly scores for arbitrary traces based on their likelihood of occurrence or how well they fit within the model. However, these methods do not dynamically adapt their scores based on the traces seen at test time. This becomes a problem when an adversary produces seemingly common traces in their attack, causing the model to miss the detection by assigning low anomaly scores. We propose SEQUENT, a new unsupervised approach that uses the state visit frequency of a state machine to adapt its scoring dynamically for anomaly detection. SEQUENT subsequently uses the scores to generate root causes for anomalies. These allow the grouping of alarms and simplify the analysis of anomalies. We evaluate SEQUENT’s effectiveness in detecting network anomalies on three publicly available NetFlow datasets and compare its performance against various existing unsupervised anomaly detection methods. Our evaluation shows promising results for using the state visit frequency of a state machine to detect network anomalies.

arxiv情報

著者 Clinton Cao,Agathe Blaise,Annibale Panichella,Sicco Verwer
発行日 2025-03-10 13:19:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | State Frequency Estimation for Anomaly Detection はコメントを受け付けていません

When Selection Meets Intervention: Additional Complexities in Causal Discovery

要約

被験者が実験に選択的に登録されている介入研究における一般的であるが見過ごされている選択バイアスに対処します。
たとえば、薬物試験の参加者は通常、関連する疾患の患者です。
モバイルアプリケーションでのA/Bテストは、既存のユーザーのみを対象としており、遺伝子摂動研究は通常、がん細胞などの特定の細胞タイプに焦点を当てています。
このバイアスを無視すると、誤った因果発見の結果が得られます。
認識されたとしても、介入因果発見の既存のパラダイムは依然としてそれに対処できません。
これは、介入がいつどこで発生するかの微妙な違いが、統計パターンが著しく異なる可能性があるためです。
観察された世界(介入が適用される場合)と反事実的な世界(介入が適用されていない間に選択が発生する場合)の両方を明示的に説明するグラフィカルモデルを導入することにより、この動的をキャプチャします。
モデルのマルコフの特性を特徴付け、因果関係を特定するための証明的に健全なアルゴリズムを提案し、ソフト介入と未知のターゲットを備えたデータから、同等のクラスまでの選択メカニズムを特定します。
合成および実世界の実験を通じて、選択バイアスの存在にもかかわらず、アルゴリズムが真の因果関係を効果的に識別することを実証します。

要約(オリジナル)

We address the common yet often-overlooked selection bias in interventional studies, where subjects are selectively enrolled into experiments. For instance, participants in a drug trial are usually patients of the relevant disease; A/B tests on mobile applications target existing users only, and gene perturbation studies typically focus on specific cell types, such as cancer cells. Ignoring this bias leads to incorrect causal discovery results. Even when recognized, the existing paradigm for interventional causal discovery still fails to address it. This is because subtle differences in when and where interventions happen can lead to significantly different statistical patterns. We capture this dynamic by introducing a graphical model that explicitly accounts for both the observed world (where interventions are applied) and the counterfactual world (where selection occurs while interventions have not been applied). We characterize the Markov property of the model, and propose a provably sound algorithm to identify causal relations as well as selection mechanisms up to the equivalence class, from data with soft interventions and unknown targets. Through synthetic and real-world experiments, we demonstrate that our algorithm effectively identifies true causal relations despite the presence of selection bias.

arxiv情報

著者 Haoyue Dai,Ignavier Ng,Jianle Sun,Zeyu Tang,Gongxu Luo,Xinshuai Dong,Peter Spirtes,Kun Zhang
発行日 2025-03-10 13:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | When Selection Meets Intervention: Additional Complexities in Causal Discovery はコメントを受け付けていません

The influence of missing data mechanisms and simple missing data handling techniques on fairness

要約

機械学習アルゴリズムの公平性は、そのようなアルゴリズムが私たちの生活の日々の側面に浸透するため、注目を集めています。
データセットでバイアスが現れる1つの方法は、欠損値を使用することです。
データが欠落している場合、これらのデータはしばしば完全にランダムに欠落していると想定されます。
現実には、欠落しているデータの傾向は、個人の人口統計学的特性と結びついていることがよくあります。
欠損値とその取り扱いがアルゴリズムの公平性にどのように影響するかについての研究は限られています。
ほとんどの研究者は、リストごとの削除を適用するか、より高度なものと比較して、より単純な代入法(平均モードまたはモードなど)を使用する傾向があります(例:多重代入)。
したがって、アルゴリズムの公平性に対するより単純な方法の影響を研究します。
研究の出発点は、欠落のメカニズムであり、欠落データの処理方法と最終的にこれが公平性にどのように影響するかにつながります。
公平性の分野で3つの一般的なデータセットがシミュレーション調査で切断されています。
結果は、特定のシナリオでは、欠落メカニズムがランダムに欠落している場合、公平性への影響が顕著になる可能性があることを示しています。
さらに、リストごとの削除やモード代入などの基本的な欠落データ処理手法は、k-nearest隣接の代入のようなより複雑な代入法と比較して、より複雑な代入法に比べてより高い公平性につながる可能性がありますが、多くの場合、精度が低くなります。

要約(オリジナル)

Fairness of machine learning algorithms is receiving increasing attention, as such algorithms permeate the day-to-day aspects of our lives. One way in which bias can manifest in a dataset is through missing values. If data are missing, these data are often assumed to be missing completely randomly; in reality the propensity of data being missing is often tied to the demographic characteristics of individuals. There is limited research into how missing values and the handling thereof can impact the fairness of an algorithm. Most researchers either apply listwise deletion or tend to use the simpler methods of imputation (e.g. mean or mode) compared to the more advanced ones (e.g. multiple imputation); we therefore study the impact of the simpler methods on the fairness of algorithms. The starting point of the study is the mechanism of missingness, leading into how the missing data are processed and finally how this impacts fairness. Three popular datasets in the field of fairness are amputed in a simulation study. The results show that under certain scenarios the impact on fairness can be pronounced when the missingness mechanism is missing at random. Furthermore, elementary missing data handling techniques like listwise deletion and mode imputation can lead to higher fairness compared to more complex imputation methods like k-nearest neighbour imputation, albeit often at the cost of lower accuracy.

arxiv情報

著者 Aeysha Bhatti,Trudie Sandrock,Johane Nienkemper-Swanepoel
発行日 2025-03-10 13:32:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | The influence of missing data mechanisms and simple missing data handling techniques on fairness はコメントを受け付けていません