Accelerating Optimization via Differentiable Stopping Time

要約

最適化は、最新の機械学習アプリケーションの重要なモジュールです。
最適化アルゴリズムを加速するために多大な努力が払われています。
一般的な定式化は、特定の時間に低い損失を達成することです。
これにより、アルゴリズムハイパーパラメーターに関して微分可能なフレームワークが可能になります。
対照的に、その二重であり、ターゲット損失に到達する時間を最小限に抑えることは、時間が微分不可能ではないため、非差性であると考えられています。
その結果、通常、概念的なフレームワークとして機能するか、ゼロオーダーメソッドを使用して最適化されます。
この制限に対処するために、微分可能な停止時間を提案し、理論的に微分方程式に基づいて正当化します。
効率的なアルゴリズムは、それを通してバックプロパゲートするように設計されています。
その結果、提案された微分可能な停止時間により、加速するアルゴリズムのための新しい微分可能な定式化が可能になります。
さらに、オンラインハイパーパラメーターの調整や最適化の学習など、そのアプリケーションについて説明します。
提案されている方法は、さまざまな問題にわたる包括的な実験における優れたパフォーマンスを示しており、その有効性を確認しています。

要約(オリジナル)

Optimization is an important module of modern machine learning applications. Tremendous efforts have been made to accelerate optimization algorithms. A common formulation is achieving a lower loss at a given time. This enables a differentiable framework with respect to the algorithm hyperparameters. In contrast, its dual, minimizing the time to reach a target loss, is believed to be non-differentiable, as the time is not differentiable. As a result, it usually serves as a conceptual framework or is optimized using zeroth-order methods. To address this limitation, we propose a differentiable stopping time and theoretically justify it based on differential equations. An efficient algorithm is designed to backpropagate through it. As a result, the proposed differentiable stopping time enables a new differentiable formulation for accelerating algorithms. We further discuss its applications, such as online hyperparameter tuning and learning to optimize. Our proposed methods show superior performance in comprehensive experiments across various problems, which confirms their effectiveness.

arxiv情報

著者 Zhonglin Xie,Yiman Fong,Haoran Yuan,Zaiwen Wen
発行日 2025-05-28 15:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Accelerating Optimization via Differentiable Stopping Time はコメントを受け付けていません

IGNIS: A Neural Network Framework for Robust Parameter Estimation in Archimedean Copulas

要約

Archimedean Copulasのパラメーター推定は、特に複雑な依存関係を示す最近開発されたA1およびA2ファミリの依然として困難な問題のままです。
モーメントの方法(MOM)、最尤推定(MLE)、および最大擬似棒(MPL)などの従来の方法は、KendallのTau(A1の場合)や数値的不安定性などの非黙示関係の問題の問題のためにしばしば苦労しています。
このホワイトペーパーでは、観察可能な依存関係測定からコピュラパラメーターへの直接マッピングを学習し、それによって古典的なアプローチの制限を克服する、斬新で統一されたニューラルフレームワークであるIgnisネットワークを紹介します。
私たちのアプローチは、Clayton、Gumbel、Frank、A1、A2を含む5つのArchimedean Copulファミリーにまたがるシミュレートされたデータで訓練されており、家族全員における一般的な適用性を確保しています。
広範なシミュレーション研究は、IGNISネットワークがMOMと比較して推定誤差を減らす一方で、理論がガイドされたポストプロセッシングを通じてパラメーターの制約を本質的に施行することを示しています。
さらに、金融収益(AAPL-MSFT)、ヘルスケアメトリック(CDC糖尿病指標)、環境測定(PM2.5大気の質)など、多様な現実世界のデータセットでの方法の実用的なユーティリティを検証します。
私たちの結果は、最新のアプリケーションにおける堅牢で正確な依存モデリングのための神経法の変革の可能性を強調しています。

要約(オリジナル)

Parameter estimation for Archimedean copulas remains a challenging problem, particularly for the recently developed A1 and A2 families that exhibit complex dependency structures. Traditional methods, such as the Method of Moments (MoM), Maximum Likelihood Estimation (MLE), and Maximum Pseudo-Likelihood (MPL), often struggle due to issues of non-monotonic relationship with dependency measures such as Kendall’s tau (as in the case of A1) and numerical instability. In this paper, we present the IGNIS Network, a novel, unified neural framework that learns a direct mapping from observable dependency measures to copula parameters, thereby overcoming the limitations of classical approaches. Our approach is trained on simulated data spanning five Archimedean copula families including Clayton, Gumbel, Frank, A1, and A2, ensuring its general applicability across the entire family. Extensive simulation studies demonstrate that the IGNIS Network reduces estimation errors compared to MoM, while inherently enforcing parameter constraints through theory-guided post-processing. We further validate the practical utility of our method on diverse real-world datasets, including financial returns (AAPL-MSFT), healthcare metrics (CDC Diabetes indicators), and environmental measurements (PM2.5 air quality). Our results underscore the transformative potential of neural methods for robust and accurate dependence modeling in modern applications.

arxiv情報

著者 Agnideep Aich,Ashit Baran Aich,Bruce Wade
発行日 2025-05-28 16:04:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62-08, 62F10, 62H05, 62H12, 68T07, cs.LG, stat.ML | IGNIS: A Neural Network Framework for Robust Parameter Estimation in Archimedean Copulas はコメントを受け付けていません

Test-Time Alignment of Discrete Diffusion Models with Sequential Monte Carlo

要約

離散拡散モデルは、さまざまなドメインで非常に効果的になりました。
ただし、実際のアプリケーションは、多くの場合、特定の制約を順守するために生成プロセスを必要としますが、タスク固有の微調整はありません。
この目的のために、テスト時に報酬に整列したターゲット分布からサンプリングするためのシーケンシャルモンテカルロ(SMC)に基づくトレーニングなしの方法を提案します。
私たちのアプローチは、Tisted SMCを、報酬関数の1次Taylor拡張を介して取得された、局所的に最適なおおよその提案で活用しています。
離散空間で不明確な勾配の課題に対処するために、Gumbel-SoftMax緩和を組み込み、離散生成フレームワーク内で効率的な勾配ベースの近似を可能にします。
合成データセットと画像モデリングの両方での経験的結果は、アプローチの有効性を検証します。

要約(オリジナル)

Discrete diffusion models have become highly effective across various domains. However, real-world applications often require the generative process to adhere to certain constraints but without task-specific fine-tuning. To this end, we propose a training-free method based on Sequential Monte Carlo (SMC) to sample from the reward-aligned target distribution at the test time. Our approach leverages twisted SMC with an approximate locally optimal proposal, obtained via a first-order Taylor expansion of the reward function. To address the challenge of ill-defined gradients in discrete spaces, we incorporate a Gumbel-Softmax relaxation, enabling efficient gradient-based approximation within the discrete generative framework. Empirical results on both synthetic datasets and image modelling validate the effectiveness of our approach.

arxiv情報

著者 Chinmay Pani,Zijing Ou,Yingzhen Li
発行日 2025-05-28 16:12:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Test-Time Alignment of Discrete Diffusion Models with Sequential Monte Carlo はコメントを受け付けていません

Symplectic Generative Networks (SGNs): A Hamiltonian Framework for Invertible Deep Generative Modeling

要約

ハミルトニアンメカニクスを活用して潜在的なボリュームプレゼンティングマッピングを構築し、潜在的な空間とデータ空間の間のマッピングを構築する深い生成モデルであるシンプレクティック生成ネットワーク(SGN)を紹介します。
潜在空間をシンプレクティック構造で支えることにより、ハミルトニアンシステムの時間進化としてデータ生成をモデリングすることにより、SGNはヤコビの決定要因計算の計算オーバーヘッドを発生させることなく、正確な尤度評価を実現します。
この作業では、(i)可逆性と体積保存の完全な証明、(ii)変分自動エンコーダーと正常化フローとの正式な比較を伴う正式な複雑さ分析を含む包括的な理論的枠組みを通じて、SGNの厳密な数学的基盤を提供します。
マニホールド、および(v)適応統合保証を使用した広範な安定性分析。
これらの貢献は、SGNの基本的な利点を強調し、複雑で高次元のデータに対する将来の経験的調査と応用のための強固な基盤を確立します。

要約(オリジナル)

We introduce the Symplectic Generative Network (SGN), a deep generative model that leverages Hamiltonian mechanics to construct an invertible, volume-preserving mapping between a latent space and the data space. By endowing the latent space with a symplectic structure and modeling data generation as the time evolution of a Hamiltonian system, SGN achieves exact likelihood evaluation without incurring the computational overhead of Jacobian determinant calculations. In this work, we provide a rigorous mathematical foundation for SGNs through a comprehensive theoretical framework that includes: (i) complete proofs of invertibility and volume preservation, (ii) a formal complexity analysis with theoretical comparisons to Variational Autoencoders and Normalizing Flows, (iii) strengthened universal approximation results with quantitative error bounds, (iv) an information-theoretic analysis based on the geometry of statistical manifolds, and (v) an extensive stability analysis with adaptive integration guarantees. These contributions highlight the fundamental advantages of SGNs and establish a solid foundation for future empirical investigations and applications to complex, high-dimensional data.

arxiv情報

著者 Agnideep Aich,Ashit Aich,Bruce Wade
発行日 2025-05-28 16:13:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 37J39, 53D22, 62B10, 65P10, 68T07, 94A17, cs.LG, stat.ML | Symplectic Generative Networks (SGNs): A Hamiltonian Framework for Invertible Deep Generative Modeling はコメントを受け付けていません

Prediction of the Most Fire-Sensitive Point in Building Structures with Differentiable Agents for Thermal Simulators

要約

建物の構造の安定性を確保するには、火災の安全性が重要ですが、構造が火災安全要件を満たすかどうかを評価することは困難です。
火災は構造内の任意の時点で発生する可能性があり、すべての潜在的な火災シナリオをシミュレートすることは高価で時間がかかります。
この課題に対処するために、最も火災に敏感なポイント(MFSP)の概念と、その識別のための効率的な機械学習フレームワークを提案します。
MFSPは、火災が開始された場合、建物の安定性に最も深刻な影響を与える場所として定義され、最悪のケースの火災シナリオを効果的に表しています。
私たちのフレームワークでは、グラフニューラルネットワーク(GNN)は、火災下の最大インターストーリードリフト比(MIDR)を予測することにより、従来の有限要素分析(FEA)シミュレーターの効率的で微分可能なエージェントとして機能し、MFSP予測因子のトレーニングと評価を導きます。
さらに、新しいエッジアップデートメカニズムと転送学習ベースのトレーニングスキームでフレームワークを強化します。
大規模なシミュレーションデータセットの評価は、MFSPを特定する際に提案されたフレームワークの良好なパフォーマンスを示し、構造設計における火災安全評価を最適化するための変革的なツールを提供します。
開発されたすべてのデータセットとコードは、オンラインでオープンソースされています。

要約(オリジナル)

Fire safety is crucial for ensuring the stability of building structures, yet evaluating whether a structure meets fire safety requirement is challenging. Fires can originate at any point within a structure, and simulating every potential fire scenario is both expensive and time-consuming. To address this challenge, we propose the concept of the Most Fire-Sensitive Point (MFSP) and an efficient machine learning framework for its identification. The MFSP is defined as the location at which a fire, if initiated, would cause the most severe detrimental impact on the building’s stability, effectively representing the worst-case fire scenario. In our framework, a Graph Neural Network (GNN) serves as an efficient and differentiable agent for conventional Finite Element Analysis (FEA) simulators by predicting the Maximum Interstory Drift Ratio (MIDR) under fire, which then guides the training and evaluation of the MFSP predictor. Additionally, we enhance our framework with a novel edge update mechanism and a transfer learning-based training scheme. Evaluations on a large-scale simulation dataset demonstrate the good performance of the proposed framework in identifying the MFSP, offering a transformative tool for optimizing fire safety assessments in structural design. All developed datasets and codes are open-sourced online.

arxiv情報

著者 Yuan Xinjie,Khalid M. Mosalam
発行日 2025-05-28 16:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Prediction of the Most Fire-Sensitive Point in Building Structures with Differentiable Agents for Thermal Simulators はコメントを受け付けていません

Uncertainty Quantification with Proper Scoring Rules: Adjusting Measures to Prediction Tasks

要約

不確実性の定量化の問題に対処し、(厳密に)適切なスコアリングルールの既知の分解、特定のタイプの損失関数、発散およびエントロピーコンポーネントへの既知の分解に基づいて、合計、aleatoric、および認識論の測定値を提案します。
これにより、不確実性の定量化のための柔軟なフレームワークにつながり、異なる損失(スコアリングルール)でインスタンス化できるため、不確実性の定量化を手元のユースケースに合わせて調整できます。
この柔軟性が実際に有利であることを示します。
特に、選択的予測のタスクを分析し、スコアリングルールがタスクの損失と理想的に一致するはずであることを示します。
さらに、他の2つの一般的なタスクで実験を実行します。
分配不足の検出のために、我々の結果は、認識論の不確実性である相互情報の広く使用されている尺度が最も効果的であることを確認しています。
さらに、積極的な学習の設定において、ゼロ1ロスに基づいた認識論的不確実性の尺度は、他の不確実性測定を一貫して上回ります。

要約(オリジナル)

We address the problem of uncertainty quantification and propose measures of total, aleatoric, and epistemic uncertainty based on a known decomposition of (strictly) proper scoring rules, a specific type of loss function, into a divergence and an entropy component. This leads to a flexible framework for uncertainty quantification that can be instantiated with different losses (scoring rules), which makes it possible to tailor uncertainty quantification to the use case at hand. We show that this flexibility is indeed advantageous. In particular, we analyze the task of selective prediction and show that the scoring rule should ideally match the task loss. In addition, we perform experiments on two other common tasks. For out-of-distribution detection, our results confirm that a widely used measure of epistemic uncertainty, mutual information, performs best. Moreover, in the setting of active learning, our measure of epistemic uncertainty based on the zero-one-loss consistently outperforms other uncertainty measures.

arxiv情報

著者 Paul Hofman,Yusuf Sale,Eyke Hüllermeier
発行日 2025-05-28 16:22:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Uncertainty Quantification with Proper Scoring Rules: Adjusting Measures to Prediction Tasks はコメントを受け付けていません

A Human-Centric Approach to Explainable AI for Personalized Education

要約

深いニューラルネットワークは、人工知能研究のバックボーンを形成し、自律運転からパーソナルアシスタント、ヘルスケア、教育に至るまでの分野での人間の経験を変える可能性があります。
ただし、現実世界の教室の日常生活への統合は依然として限られています。
教師は、特定の弱点をターゲットにした個別の宿題を生徒に割り当てたり、生徒にすぐにフィードバックを提供したり、新しい試験の質問に対する生徒の回答をシミュレートしたりすることはまだ一般的ではありません。
これらのモデルは予測パフォーマンスに優れていますが、この採用の欠如は、モデルの決定の説明可能性の欠如、つまり学生、保護者、教師からの信頼の欠如につながるという重要な弱点に起因する可能性があります。
この論文の目的は、人間のニーズを、パーソナライズされた学習と教育の具体的なユースケースに基づいた、説明可能なAI(XAI)研究の最前線にもたらすことを目的としています。
Xaiの技術的進歩とその整合した人間の研究の2つの垂直に沿った貢献を組み立てます。
教育のためのAIの説明可能性を調査し、事後説明者の間の体系的な意見の不一致を明らかにし、本質的に解釈可能なモデルアーキテクチャの必要性を特定します。
マルチモーダルモジュラーアーキテクチャ(MultiMoDN)、解釈可能な専門家モデル(解釈の混合物)、説明担当者の安定性のための敵対的なトレーニング、および学生に説明を提示する理論主導のLLM-XAIフレームワーク(Illuminate)を提示するための理論主導のLLM-XAIフレームワークを使用して、解釈可能性における4つの新しい技術的貢献を提案します。
既存の説明者の経験的評価と新しい建築設計や人間の研究を組み合わせることにより、私たちの仕事は、最先端のパフォーマンスと組み込みの透明性と信頼のバランスをとる人間中心のAIシステムの基礎を築きます。

要約(オリジナル)

Deep neural networks form the backbone of artificial intelligence research, with potential to transform the human experience in areas ranging from autonomous driving to personal assistants, healthcare to education. However, their integration into the daily routines of real-world classrooms remains limited. It is not yet common for a teacher to assign students individualized homework targeting their specific weaknesses, provide students with instant feedback, or simulate student responses to a new exam question. While these models excel in predictive performance, this lack of adoption can be attributed to a significant weakness: the lack of explainability of model decisions, leading to a lack of trust from students, parents, and teachers. This thesis aims to bring human needs to the forefront of eXplainable AI (XAI) research, grounded in the concrete use case of personalized learning and teaching. We frame the contributions along two verticals: technical advances in XAI and their aligned human studies. We investigate explainability in AI for education, revealing systematic disagreements between post-hoc explainers and identifying a need for inherently interpretable model architectures. We propose four novel technical contributions in interpretability with a multimodal modular architecture (MultiModN), an interpretable mixture-of-experts model (InterpretCC), adversarial training for explainer stability, and a theory-driven LLM-XAI framework to present explanations to students (iLLuMinaTE), which we evaluate in diverse settings with professors, teachers, learning scientists, and university students. By combining empirical evaluations of existing explainers with novel architectural designs and human studies, our work lays a foundation for human-centric AI systems that balance state-of-the-art performance with built-in transparency and trust.

arxiv情報

著者 Vinitra Swamy
発行日 2025-05-28 16:23:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG | A Human-Centric Approach to Explainable AI for Personalized Education はコメントを受け付けていません

DES-LOC: Desynced Low Communication Adaptive Optimizers for Training Foundation Models

要約

分散データパラレル(DDP)メソッドを使用したスケーリングファンデーションモデルトレーニングは、帯域幅が制限されています。
ローカルSGDのような既存のまれな通信方法は、モデルパラメーターのみを同期するように設計されており、追加のオプティマイザー状態により、適応オプティマイザーに簡単に適用することはできません。
ローカルSGDを拡張する現在のアプローチは、収束保証がないか、すべてのオプティマイザー状態を同期させ、通信コストを3倍にする必要があります。
独立した同期期間をパラメーターとモーメンタに割り当てる最適化装置のファミリである低通信適応オプティマイザー(DES-LOC)を解除し、収束を維持しながら通信コストを削減できることを提案します。
最大1.7Bの言語モデルに関する広範な実験を通じて、DES-LOCがDDPよりも170倍少なく、以前の最先端の地元のAdamよりも2倍少ないことを示しています。
さらに、以前のヒューリスティックアプローチとは異なり、DES-LOCは、システム障害に起因する実用的なトレーニングシナリオに適しています。
DES-LOCは、基礎モデルトレーニングのために、スケーラブルで帯域幅効率が高く、断層耐性ソリューションを提供します。

要約(オリジナル)

Scaling foundation model training with Distributed Data Parallel (DDP) methods is bandwidth-limited. Existing infrequent communication methods like Local SGD were designed to synchronize only model parameters and cannot be trivially applied to adaptive optimizers due to additional optimizer states. Current approaches extending Local SGD either lack convergence guarantees or require synchronizing all optimizer states, tripling communication costs. We propose Desynced Low Communication Adaptive Optimizers (DES-LOC), a family of optimizers assigning independent synchronization periods to parameters and momenta, enabling lower communication costs while preserving convergence. Through extensive experiments on language models of up to 1.7B, we show that DES-LOC can communicate 170x less than DDP and 2x less than the previous state-of-the-art Local ADAM. Furthermore, unlike previous heuristic approaches, DES-LOC is suited for practical training scenarios prone to system failures. DES-LOC offers a scalable, bandwidth-efficient, and fault-tolerant solution for foundation model training.

arxiv情報

著者 Alex Iacob,Lorenzo Sani,Mher Safaryan,Paris Giampouras,Samuel Horváth,Andrej Jovanovic,Meghdad Kurmanji,Preslav Aleksandrov,William F. Shen,Xinchi Qiu,Nicholas D. Lane
発行日 2025-05-28 16:32:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | DES-LOC: Desynced Low Communication Adaptive Optimizers for Training Foundation Models はコメントを受け付けていません

Data-Distill-Net: A Data Distillation Approach Tailored for Reply-based Continual Learning

要約

リプレイベースの継続学習(CL)メソッドは、小さなサブセットでトレーニングされたモデルが完全なデータセットの経験的リスクを効果的に最小限に抑えることができると想定しています。
これらの方法は、過去の知識を統合するために、以前のタスクからサンプルされたデータのサブセットを保存するメモリバッファーを維持します。
ただし、メモリバッファーの容量が限られているため、バッファーデータの選択に使用されるヒューリスティックな基準により、この仮定は実際には保証されていません。
この問題に対処するために、CLに合わせた新しいデータセット蒸留フレームワークを提案します。CLに合わせて、学習可能なメモリバッファーを維持し、現在のタスクデータからグローバルな情報を蒸留し、以前のメモリバッファに保存されている知識を蓄積します。
さらに、蒸留中のバッファー全体のパラメーター化に関連する計算オーバーヘッドと過剰適合リスクを回避するために、メモリバッファーデータの学習可能なソフトラベルを生成するだけでグローバルな情報蒸留を実現できる軽量蒸留モジュールを導入します。
広範な実験では、我々の方法が競争力のある結果を達成し、さまざまなデータセット全体で忘れることを効果的に軽減できることが示されています。
ソースコードは公開されます。

要約(オリジナル)

Replay-based continual learning (CL) methods assume that models trained on a small subset can also effectively minimize the empirical risk of the complete dataset. These methods maintain a memory buffer that stores a sampled subset of data from previous tasks to consolidate past knowledge. However, this assumption is not guaranteed in practice due to the limited capacity of the memory buffer and the heuristic criteria used for buffer data selection. To address this issue, we propose a new dataset distillation framework tailored for CL, which maintains a learnable memory buffer to distill the global information from the current task data and accumulated knowledge preserved in the previous memory buffer. Moreover, to avoid the computational overhead and overfitting risks associated with parameterizing the entire buffer during distillation, we introduce a lightweight distillation module that can achieve global information distillation solely by generating learnable soft labels for the memory buffer data. Extensive experiments show that, our method can achieve competitive results and effectively mitigates forgetting across various datasets. The source code will be publicly available.

arxiv情報

著者 Wenyang Liao,Quanziang Wang,Yichen Wu,Renzhen Wang,Deyu Meng
発行日 2025-05-28 16:33:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Data-Distill-Net: A Data Distillation Approach Tailored for Reply-based Continual Learning はコメントを受け付けていません

Can Copulas Be Used for Feature Selection? A Machine Learning Study on Diabetes Risk Prediction

要約

正確な糖尿病のリスク予測は、複雑な健康データセットからの主要な機能の特定に依存していますが、相互情報(MI)フィルターや遺伝的アルゴリズム(GAS)などの従来の方法は、多くの場合、高リスクの亜集団に重要な極端な依存関係を見落としています。
この研究では、新規A2コピュラの上限依存性係数({\ lambda} u)を使用して機能選択フレームワークを紹介します。
CDC糖尿病の健康指標データセット(n = 253,680)に適用されたこの方法は、上部尾の依存関係に基づいて5つの予測因子(自己報告の一般的な健康、高血圧、モビリティの制限、高コレステロールレベル)を優先します。
これらの機能は、4つの分類器(ランダムフォレスト、xgboost、ロジスティック回帰、勾配ブースト)でMIおよびGAを選択したサブセットに一致またはアウトパフォームし、最大86.5%(xgboost)とAUC(勾配ブースト)までの精度を達成し、21フィーチャーモデル全体に​​匹敵します。
順列の重要性は、BMIと一般的な健康駆動の精度により、臨床的関連性を確認します。
私たちの知る限り、これは監視された機能選択のためにコピュラの上限依存を適用し、極度の価値理論を埋め、糖尿病予防のための実用的なツールキットを提供するための機械学習を適用した最初の作業です。

要約(オリジナル)

Accurate diabetes risk prediction relies on identifying key features from complex health datasets, but conventional methods like mutual information (MI) filters and genetic algorithms (GAs) often overlook extreme dependencies critical for high-risk subpopulations. In this study we introduce a feature-selection framework using the upper-tail dependence coefficient ({\lambda}U) of the novel A2 copula, which quantifies how often extreme higher values of a predictor co-occur with diabetes diagnoses (target variable). Applied to the CDC Diabetes Health Indicators dataset (n=253,680), our method prioritizes five predictors (self-reported general health, high blood pressure, body mass index, mobility limitations, and high cholesterol levels) based on upper tail dependencies. These features match or outperform MI and GA selected subsets across four classifiers (Random Forest, XGBoost, Logistic Regression, Gradient Boosting), achieving accuracy up to 86.5% (XGBoost) and AUC up to 0.806 (Gradient Boosting), rivaling the full 21-feature model. Permutation importance confirms clinical relevance, with BMI and general health driving accuracy. To our knowledge, this is the first work to apply a copula’s upper-tail dependence for supervised feature selection, bridging extreme-value theory and machine learning to deliver a practical toolkit for diabetes prevention.

arxiv情報

著者 Agnideep Aich,Md Monzur Murshed,Amanda Mayeaux,Sameera Hewage
発行日 2025-05-28 16:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H05, 62H12, 62P10, 68T07, cs.LG, stat.ML | Can Copulas Be Used for Feature Selection? A Machine Learning Study on Diabetes Risk Prediction はコメントを受け付けていません