MetaSel: A Test Selection Approach for Fine-tuned DNN Models

要約

ディープニューラルネットワーク(DNNS)は、データ分布のシフトによる展開中に課題に直面しています。
微調整は、より小さなラベル付きセットを必要とする新しいコンテキストに事前に訓練されたモデルを適応させます。
ただし、制約されたラベル付け予算の下で微調整されたモデルをテストすることは依然として重要な課題です。
このペーパーでは、微調整されたDNNモデルに合わせて調整された新しいアプローチであるMetaselを紹介し、非標識入力からテストを選択します。
Metaselは、微調整された事前に訓練されたモデルが関連するデータ分布を共有し、多くの入力に対して同様の動作を示すと想定しています。
ただし、それらの動作は、微調整が決定境界を変更する入力サブスペース内で分岐し、それらの入力がより誤分類の傾向があるようにします。
DNNモデルとその入力セットのみに依存する一般的なアプローチとは異なり、メタセルは微調整されたモデルと事前に訓練されたモデルとその行動の違いの両方から情報を活用して、より効果的なテスト入力の誤分類確率を推定し、より効果的なテスト選択を可能にします。
メタセルと10の最先端のアプローチと比較し、弱い、中程度、および強力な分布シフトにわたって68の微調整されたモデルを含む広範な経験的評価は、メタセルが既存のベースライン、特に高度に制約されたラベリング予算の下で、テスト相対カバレッジ(TRC)の大幅な改善を一貫して提供することを示しています。
メタセルは、高頻度の2番目のベースラインで平均TRCの改善が28.46%から56.18%であることを示していますが、高TRCの中央値と低い変動性を維持しています。
我々の結果は、微調整されたモデルのコンテキストでのテスト選択のメタセルの実用性、堅牢性、および費用対効果を裏付けています。

要約(オリジナル)

Deep Neural Networks (DNNs) face challenges during deployment due to data distribution shifts. Fine-tuning adapts pre-trained models to new contexts requiring smaller labeled sets. However, testing fine-tuned models under constrained labeling budgets remains a critical challenge. This paper introduces MetaSel, a new approach, tailored for fine-tuned DNN models, to select tests from unlabeled inputs. MetaSel assumes that fine-tuned and pre-trained models share related data distributions and exhibit similar behaviors for many inputs. However, their behaviors diverge within the input subspace where fine-tuning alters decision boundaries, making those inputs more prone to misclassification. Unlike general approaches that rely solely on the DNN model and its input set, MetaSel leverages information from both the fine-tuned and pre-trained models and their behavioral differences to estimate misclassification probability for unlabeled test inputs, enabling more effective test selection. Our extensive empirical evaluation, comparing MetaSel against 10 state-of-the-art approaches and involving 68 fine-tuned models across weak, medium, and strong distribution shifts, demonstrates that MetaSel consistently delivers significant improvements in Test Relative Coverage (TRC) over existing baselines, particularly under highly constrained labeling budgets. MetaSel shows average TRC improvements of 28.46% to 56.18% over the most frequent second-best baselines while maintaining a high TRC median and low variability. Our results confirm MetaSel’s practicality, robustness, and cost-effectiveness for test selection in the context of fine-tuned models.

arxiv情報

著者 Amin Abbasishahkoo,Mahboubeh Dadkhah,Lionel Briand,Dayi Lin
発行日 2025-03-25 16:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE | MetaSel: A Test Selection Approach for Fine-tuned DNN Models はコメントを受け付けていません

Locally Private Nonparametric Contextual Multi-armed Bandits

要約

機密データに関する順次意思決定におけるプライバシーの懸念に動機付けられ、ローカル差別的プライバシー(LDP)の下でのノンパラメトリックコンテキストマルチアライド盗賊(MAB)の課題に対処します。
一致するミニマックスの下限によってサポートされているミニマックスの最適性を示す均一な満点に縛られたタイプの推定器を開発します。
さらに、補助データセットが利用可能な場合を検討します。これは、(おそらく不均一な)LDP制約の対象となります。
広く使用されている共変量シフトフレームワークの下で、補助データを効果的に利用するためのジャンプスタートスキームを提案します。その最適性は、一致する下限によってさらに確立されます。
合成データセットと実世界の両方のデータセットの包括的な実験は、当社の理論的結果を検証し、提案された方法の有効性を強調しています。

要約(オリジナル)

Motivated by privacy concerns in sequential decision-making on sensitive data, we address the challenge of nonparametric contextual multi-armed bandits (MAB) under local differential privacy (LDP). We develop a uniform-confidence-bound-type estimator, showing its minimax optimality supported by a matching minimax lower bound. We further consider the case where auxiliary datasets are available, subject also to (possibly heterogeneous) LDP constraints. Under the widely-used covariate shift framework, we propose a jump-start scheme to effectively utilize the auxiliary data, the minimax optimality of which is further established by a matching lower bound. Comprehensive experiments on both synthetic and real-world datasets validate our theoretical results and underscore the effectiveness of the proposed methods.

arxiv情報

著者 Yuheng Ma,Feiyu Jiang,Zifeng Zhao,Hanfang Yang,Yi Yu
発行日 2025-03-25 16:13:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Locally Private Nonparametric Contextual Multi-armed Bandits はコメントを受け付けていません

A Systematic Review of EEG-based Machine Intelligence Algorithms for Depression Diagnosis, and Monitoring

要約

うつ病障害は、世界中の何百万人もの人々の生活に影響を与えた深刻な健康状態です。
うつ病の診断は、主観的な研究に大きく依存している挑戦的な実践であり、ほとんどの場合、遅い発見に苦しんでいます。
脳波(EEG)バイオマーカーが提案され、潜在的な変革的客観的実践として調査されています。
この記事では、EEGベースのうつ病診断アプローチの詳細な系統的レビューを初めて、高度な機械学習技術と統計分析を使用して実施します。
このため、938の潜在的に関連する記事(1985年以降)が最初に検出され、レビュースキーム「系統的レビューおよびメタ分析(PRISMA)のための優先レポート項目」に基づいて139の関連記事にフィルタリングされました。
この記事では、選択した記事を比較および説明し、機械学習技術の種類と統計分析に従って分類します。
アルゴリズム、前処理手法、抽出された機能、およびデータ収集システムについて説明し、要約します。
このレビューペーパーでは、現在のアルゴリズムの既存の課題について説明し、フィールドの将来の方向に光を当てます。
この系統的レビューは、将来の研究や将来のウェアラブル技術で対処できるEEGうつ病の診断のためのマシンインテリジェンスの問題と課題の概要を示しています。

要約(オリジナル)

Depression disorder is a serious health condition that has affected the lives of millions of people around the world. Diagnosis of depression is a challenging practice that relies heavily on subjective studies and, in most cases, suffers from late findings. Electroencephalography (EEG) biomarkers have been suggested and investigated in recent years as a potential transformative objective practice. In this article, for the first time, a detailed systematic review of EEG-based depression diagnosis approaches is conducted using advanced machine learning techniques and statistical analyses. For this, 938 potentially relevant articles (since 1985) were initially detected and filtered into 139 relevant articles based on the review scheme ‘preferred reporting items for systematic reviews and meta-analyses (PRISMA).’ This article compares and discusses the selected articles and categorizes them according to the type of machine learning techniques and statistical analyses. Algorithms, preprocessing techniques, extracted features, and data acquisition systems are discussed and summarized. This review paper explains the existing challenges of the current algorithms and sheds light on the future direction of the field. This systematic review outlines the issues and challenges in machine intelligence for the diagnosis of EEG depression that can be addressed in future studies and possibly in future wearable technologies.

arxiv情報

著者 Amir Nassibi,Christos Papavassiliou,Ildar Rakhmatulin,Danilo Mandic,S. Farokh Atashzar
発行日 2025-03-25 16:31:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | A Systematic Review of EEG-based Machine Intelligence Algorithms for Depression Diagnosis, and Monitoring はコメントを受け付けていません

IgCraft: A versatile sequence generation framework for antibody discovery and engineering

要約

抗体配列を設計するために、自然の人間のレパートリーで観察されるものによく似たものは、生物学の発達における重要な課題です。
IGrack:ベイジアンフローネットワーク上に構築されたペアのヒト抗体配列生成の多目的モデルを紹介します。
IGraftは、無条件のサンプリング、パインティングのシーケンス、逆折りたたみ、CDRモチーフ足場など、単一のモデルを使用して、複数の抗体配列設計タスクに対処できる最初の統合生成モデリングフレームワークの1つを提示します。
私たちのアプローチは、これらのタスクの全範囲にわたって競争結果を達成しながら、ヒト抗体配列の空間に生成を制約し、CDRモチーフ足場(グラフト)の特定の強みを示し、そこでは構造特性の人間性と保存の観点から最先端のパフォーマンスを達成します。
以前のタスクを単一のスケーラブルな生成モデルに統合することにより、IGCRACKは抗体発見とエンジニアリングに関連するさまざまなコンテキストの下でヒト抗体配列をサンプリングするための汎用性の高いプラットフォームを提供します。
モデルコードと重みは、github.com/mgreenig/igcraftで公開されています。

要約(オリジナル)

Designing antibody sequences to better resemble those observed in natural human repertoires is a key challenge in biologics development. We introduce IgCraft: a multi-purpose model for paired human antibody sequence generation, built on Bayesian Flow Networks. IgCraft presents one of the first unified generative modeling frameworks capable of addressing multiple antibody sequence design tasks with a single model, including unconditional sampling, sequence inpainting, inverse folding, and CDR motif scaffolding. Our approach achieves competitive results across the full spectrum of these tasks while constraining generation to the space of human antibody sequences, exhibiting particular strengths in CDR motif scaffolding (grafting) where we achieve state-of-the-art performance in terms of humanness and preservation of structural properties. By integrating previously separate tasks into a single scalable generative model, IgCraft provides a versatile platform for sampling human antibody sequences under a variety of contexts relevant to antibody discovery and engineering. Model code and weights are publicly available at github.com/mgreenig/IgCraft.

arxiv情報

著者 Matthew Greenig,Haowen Zhao,Vladimir Radenkovic,Aubin Ramon,Pietro Sormanni
発行日 2025-03-25 16:32:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM, q-bio.QM | IgCraft: A versatile sequence generation framework for antibody discovery and engineering はコメントを受け付けていません

Simplifying Deep Temporal Difference Learning

要約

Qラーニングは、フィールド補強学習(RL)で基本的な役割を果たしました。
ただし、Qラーニングなどのオフポリシーデータを備えたTDアルゴリズム、またはディープニューラルネットワークのような非線形関数近似には、主に大規模なリプレイバッファとターゲットネットワークを安定させるためにいくつかの追加のトリックが必要です。
残念ながら、ターゲットネットワーク内のフローズンネットワークパラメーターの更新の遅延は、サンプルの効率に害を及ぼし、同様に、大きなリプレイバッファーはメモリと実装のオーバーヘッドを導入します。
このホワイトペーパーでは、安定性を維持しながら、オフポリティTDトレーニングを加速および簡素化できるかどうかを調査します。
私たちの主要な理論的結果は、Layernormなどの正規化手法が、オフポリシーデータを使用しても、ターゲットネットワークやリプレイバッファーを必要とせずに、実証的に収束するTDアルゴリズムを生成できることを初めて示しています。
経験的には、ベクトル化された環境によって有効になったオンラインの並列化されたサンプリングは、大きなリプレイバッファーを必要とせずにトレーニングを安定させることがわかります。
これらの調査結果に動機付けられて、私たちはPQNであるPQNを提案します。
驚くべきことに、この単純なアルゴリズムは、AtariのRainbow、CraftaxのPPO-RNN、SMAXのQMIXなどのより複雑な方法と競合し、サンプルの効率を犠牲にすることなく、従来のDQNよりも最大50倍高速になります。
PPOがGo-To RLアルゴリズムになった時代に、PQNは実行可能な代替手段としてポリシーQラーニングを再確立します。

要約(オリジナル)

Q-learning played a foundational role in the field reinforcement learning (RL). However, TD algorithms with off-policy data, such as Q-learning, or nonlinear function approximation like deep neural networks require several additional tricks to stabilise training, primarily a large replay buffer and target networks. Unfortunately, the delayed updating of frozen network parameters in the target network harms the sample efficiency and, similarly, the large replay buffer introduces memory and implementation overheads. In this paper, we investigate whether it is possible to accelerate and simplify off-policy TD training while maintaining its stability. Our key theoretical result demonstrates for the first time that regularisation techniques such as LayerNorm can yield provably convergent TD algorithms without the need for a target network or replay buffer, even with off-policy data. Empirically, we find that online, parallelised sampling enabled by vectorised environments stabilises training without the need for a large replay buffer. Motivated by these findings, we propose PQN, our simplified deep online Q-Learning algorithm. Surprisingly, this simple algorithm is competitive with more complex methods like: Rainbow in Atari, PPO-RNN in Craftax, QMix in Smax, and can be up to 50x faster than traditional DQN without sacrificing sample efficiency. In an era where PPO has become the go-to RL algorithm, PQN reestablishes off-policy Q-learning as a viable alternative.

arxiv情報

著者 Matteo Gallici,Mattie Fellows,Benjamin Ellis,Bartomeu Pou,Ivan Masmitja,Jakob Nicolaus Foerster,Mario Martin
発行日 2025-03-25 16:32:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Simplifying Deep Temporal Difference Learning はコメントを受け付けていません

LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation

要約

ハードウェア設計検証(DV)は、ハードウェア設計の機能的等価性をその仕様と比較するプロセスであり、ハードウェアの信頼性と堅牢性を向上させるプロセスです。
DVプロセスの重要なタスクは、テスト刺激生成です。これにより、テスト用の一連の条件または入力が作成されます。
これらのテスト条件は、多くの場合、特定のハードウェア設計に複雑で固有であり、最適化するために実質的な人間のエンジニアリングの努力が必要です。
大規模な言語モデル(LLM)を活用する任意のハードウェア設計の自動化された効率的なテストのソリューションを求めています。
LLMSは、ハードウェアの設計自動化を改善するための有望な結果をすでに示していますが、ハードウェアDVには依存していないままです。
この論文では、自動化されたハードウェアテスト刺激生成のためにLLMを効率的に組織化するLLM4DVという名前のオープンソースベンチマークフレームワークを提案します。
私たちの分析では、8つのハードウェア設計を超える6つのプロンプトの改善を含む6つの異なるLLMSを評価し、効率的な自動DVのLLMS開発に関する将来の作業に関する洞察を提供します。

要約(オリジナル)

Hardware design verification (DV) is a process that checks the functional equivalence of a hardware design against its specifications, improving hardware reliability and robustness. A key task in the DV process is the test stimuli generation, which creates a set of conditions or inputs for testing. These test conditions are often complex and specific to the given hardware design, requiring substantial human engineering effort to optimize. We seek a solution of automated and efficient testing for arbitrary hardware designs that takes advantage of large language models (LLMs). LLMs have already shown promising results for improving hardware design automation, but remain under-explored for hardware DV. In this paper, we propose an open-source benchmarking framework named LLM4DV that efficiently orchestrates LLMs for automated hardware test stimuli generation. Our analysis evaluates six different LLMs involving six prompting improvements over eight hardware designs and provides insight for future work on LLMs development for efficient automated DV.

arxiv情報

著者 Zixi Zhang,Balint Szekely,Pedro Gimenes,Greg Chadwick,Hugo McNally,Jianyi Cheng,Robert Mullins,Yiren Zhao
発行日 2025-03-25 16:32:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG | LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation はコメントを受け付けていません

Phylo2Vec: a vector representation for binary trees

要約

生物学的データから推測されるバイナリ系統樹は、進化ユニット間の共有歴史を理解するための中心です。
ただし、ツリーに潜在的なノードの配置を推測することは、計算的に高価です。
最先端の方法は、さまざまなデータ構造を使用して、簡単な操作(オブジェクト指向のプログラミング言語のクラスなど)とツリーの読み取り可能な表現(例:Newick-Format Strings)を使用して、慎重に設計されたヒューリスティックに依存してツリー検索に依存しています。
ここでは、系統樹を操作して表現するための統一されたアプローチとして機能する系統樹の標準的なエンコードであるPhylo2Vecを提示します。
Phylo2vecは、$ n $の葉を持つバイナリツリーをマップし、長さ$ n-1 $の一意の整数ベクトルにマップします。
Phylo2Vecの利点は4倍です。i)高速ツリーサンプリング、(ii)newick stringと比較した圧縮ツリー表現、iii)2つのバイナリツリーが同一であるかどうか、iv)非常に大きなジャンプまたは小さなジャンプでツリー空間を通過する系統的な能力。
概念の証明として、5つの実際のデータセットで最尤推論にPhylo2Vecを使用し、単純なヒルクリミングベースの最適化スキームがランダムから最適なツリーまでツリー空間の膨大さを効率的に横断できることを示します。

要約(オリジナル)

Binary phylogenetic trees inferred from biological data are central to understanding the shared history among evolutionary units. However, inferring the placement of latent nodes in a tree is computationally expensive. State-of-the-art methods rely on carefully designed heuristics for tree search, using different data structures for easy manipulation (e.g., classes in object-oriented programming languages) and readable representation of trees (e.g., Newick-format strings). Here, we present Phylo2Vec, a parsimonious encoding for phylogenetic trees that serves as a unified approach for both manipulating and representing phylogenetic trees. Phylo2Vec maps any binary tree with $n$ leaves to a unique integer vector of length $n-1$. The advantages of Phylo2Vec are fourfold: i) fast tree sampling, (ii) compressed tree representation compared to a Newick string, iii) quick and unambiguous verification if two binary trees are identical topologically, and iv) systematic ability to traverse tree space in very large or small jumps. As a proof of concept, we use Phylo2Vec for maximum likelihood inference on five real-world datasets and show that a simple hill-climbing-based optimisation scheme can efficiently traverse the vastness of tree space from a random to an optimal tree.

arxiv情報

著者 Matthew J Penn,Neil Scheidwasser,Mark P Khurana,David A Duchêne,Christl A Donnelly,Samir Bhatt
発行日 2025-03-25 16:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.PE, q-bio.QM | Phylo2Vec: a vector representation for binary trees はコメントを受け付けていません

Decomposing The Dark Matter of Sparse Autoencoders

要約

スパース自動エンコーダー(SAE)は、言語モデルのアクティベーションを解釈可能な線形特徴に分解するための有望な手法です。
ただし、現在のSAEはモデルのパフォーマンスを完全に説明することではありません。その結果、「暗黒物質」が生じます。
この研究は、それ自体が研究の対象として暗黒物質を調査しています。
驚くべきことに、SAE暗黒物質の多くは、エラーベクトル自体の約半分とその標準の90%以上 – が初期アクティブ化ベクトルから直線的に予測できることがわかります。
さらに、トークンあたりのレベルでのSAEエラー規範のスケーリング動作は非常に予測可能であることがわかります。より大きなSAEは、より小さなSAEと同じコンテキストを再構築するのに苦労しています。
線形表現仮説を立てて、これらの観察につながる可能性のある活性化のモデルを提案します。
これらの洞察は、線形予測(「非線形」誤差)を線形に予測できないSAEエラーベクトルの部分が、線形予測可能なコンポーネントと根本的に異なる可能性があることを意味します。
この仮説を検証するために、非線形SAEエラーを経験的に分析し、1)まだ学習されていない機能が少なく、2)訓練されたSAEが定量的に悪化し、3)SAE活性化がモデルに挿入されたときのクロスエントロピー損失の下流の増加の比例量の原因となることを示します。
最後に、非線形SAEエラーを減らすための2つの方法を調べます:推論時間勾配追跡は、非線形誤差の非常にわずかな減少と、以前の層SAE出力からの線形変換につながり、より大きな削減につながります。

要約(オリジナル)

Sparse autoencoders (SAEs) are a promising technique for decomposing language model activations into interpretable linear features. However, current SAEs fall short of completely explaining model performance, resulting in ‘dark matter’: unexplained variance in activations. This work investigates dark matter as an object of study in its own right. Surprisingly, we find that much of SAE dark matter — about half of the error vector itself and >90% of its norm — can be linearly predicted from the initial activation vector. Additionally, we find that the scaling behavior of SAE error norms at a per token level is remarkably predictable: larger SAEs mostly struggle to reconstruct the same contexts as smaller SAEs. We build on the linear representation hypothesis to propose models of activations that might lead to these observations. These insights imply that the part of the SAE error vector that cannot be linearly predicted (‘nonlinear’ error) might be fundamentally different from the linearly predictable component. To validate this hypothesis, we empirically analyze nonlinear SAE error and show that 1) it contains fewer not yet learned features, 2) SAEs trained on it are quantitatively worse, and 3) it is responsible for a proportional amount of the downstream increase in cross entropy loss when SAE activations are inserted into the model. Finally, we examine two methods to reduce nonlinear SAE error: inference time gradient pursuit, which leads to a very slight decrease in nonlinear error, and linear transformations from earlier layer SAE outputs, which leads to a larger reduction.

arxiv情報

著者 Joshua Engels,Logan Riggs,Max Tegmark
発行日 2025-03-25 17:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Decomposing The Dark Matter of Sparse Autoencoders はコメントを受け付けていません

Ab-initio simulation of excited-state potential energy surfaces with transferable deep quantum Monte Carlo

要約

励起状態の正確な量子化学計算は困難な作業であり、多くの場合、計算的に要求の厳しい方法が必要です。
地面全体と励起ポテンシャルエネルギー表面(PES)が望まれている場合、たとえば、光の励起と構造の変化の相互作用を予測するために、精度の低下を犠牲にして安価な計算方法を使用することを余儀なくされます。
ここでは、電子状態の重量共有と動的順序を活用するニューラルネットワーク波動関数の幾何学的に転送可能な最適化のための新しい方法を紹介します。
私たちの方法により、地上および励起状態の吐き気の効率的な予測とその交差点が最高の精度で可能になり、単一点計算と比較して最大2桁のコスト削減を実証します。
エチレン、カーボンダイマー、メチレニンモニウム陽イオンを含む3つの挑戦的な励起状態の外しでアプローチを検証し、透過可能な深部学習QMCが励起状態のダイナミクスの非常に正確なシミュレーションへの道を開くことができることを示しています。

要約(オリジナル)

The accurate quantum chemical calculation of excited states is a challenging task, often requiring computationally demanding methods. When entire ground and excited potential energy surfaces (PESs) are desired, e.g., to predict the interaction of light excitation and structural changes, one is often forced to use cheaper computational methods at the cost of reduced accuracy. Here we introduce a novel method for the geometrically transferable optimization of neural network wave functions that leverages weight sharing and dynamical ordering of electronic states. Our method enables the efficient prediction of ground and excited-state PESs and their intersections at the highest accuracy, demonstrating up to two orders of magnitude cost reduction compared to single-point calculations. We validate our approach on three challenging excited-state PESs, including ethylene, the carbon dimer, and the methylenimmonium cation, indicating that transferable deep-learning QMC can pave the way towards highly accurate simulation of excited-state dynamics.

arxiv情報

著者 Zeno Schätzle,P. Bernát Szabó,Alice Cuzzocrea,Frank Noé
発行日 2025-03-25 17:12:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph, physics.comp-ph | Ab-initio simulation of excited-state potential energy surfaces with transferable deep quantum Monte Carlo はコメントを受け付けていません

DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework

要約

現実世界の表形式データにおけるさまざまなパターンとレートの欠損値は、信頼できるデータ駆動型モデルの開発において重要な課題をもたらします。
欠損値の代入のために最も一般的に使用される統計学習および機械学習方法は、欠落率が高く、ランダムではない場合、効果がない場合があります。
このホワイトペーパーでは、欠損値を再構築するための新しいフレームワークで、特性とサンプル間の注意として表形式データの行と列の注意を探ります。
提案された方法は、対照的な学習フレームワーク内でカットミックスデータ増強を使用して、欠損値推定の不確実性を改善します。
訓練された代入モデルのパフォーマンスと一般化は、欠損値を持つセットアジドテストデータの折り目で評価されます。
提案されたフレームワークは、12の多様な表形式データセットを使用して、11の最先端の統計、機械学習、および深い代入法と比較されます。
提案された方法の平均パフォーマンスランクは、特に欠損値がランダムでない場合、10%から90%、3つの欠損値タイプの間のレートを欠く最先端の方法に対する優位性を示しています。
提案された方法を使用した帰属データの品質は、実際の電子健康記録を使用して、下流の患者分類タスクで比較されます。
このペーパーでは、欠損値の種類とデータ特性に基づいて代入法を推奨するために、表形式のデータセットの不均一性を強調しています。

要約(オリジナル)

Missing values of varying patterns and rates in real-world tabular data pose a significant challenge in developing reliable data-driven models. The most commonly used statistical and machine learning methods for missing value imputation may be ineffective when the missing rate is high and not random. This paper explores row and column attention in tabular data as between-feature and between-sample attention in a novel framework to reconstruct missing values. The proposed method uses CutMix data augmentation within a contrastive learning framework to improve the uncertainty of missing value estimation. The performance and generalizability of trained imputation models are evaluated in set-aside test data folds with missing values. The proposed framework is compared with 11 state-of-the-art statistical, machine learning, and deep imputation methods using 12 diverse tabular data sets. The average performance rank of our proposed method demonstrates its superiority over the state-of-the-art methods for missing rates between 10% and 90% and three missing value types, especially when the missing values are not random. The quality of the imputed data using our proposed method is compared in a downstream patient classification task using real-world electronic health records. This paper highlights the heterogeneity of tabular data sets to recommend imputation methods based on missing value types and data characteristics.

arxiv情報

著者 Ibna Kowsar,Shourav B. Rabbani,Yina Hou,Manar D. Samad
発行日 2025-03-25 17:15:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework はコメントを受け付けていません