Online Convex Optimization and Integral Quadratic Constraints: A new approach to regret analysis

要約

強く凸状およびLipschitz-Smoothの目的のための1次制限されたオンライン凸最適化アルゴリズムの動的後悔を分析するための新しいアプローチを提案します。
重要なことに、1次オラクルとのフィードバックにおける線形動的システムの相互接続として表現できる幅広い1次アルゴリズムに適用できる一般的な分析を提供します。
積分の二次制約(IQCS)を活用することにより、オンラインアルゴリズムの後悔保証を提供できる半定義プログラムを導き出します。
このため、分散IQCの概念は、時間変化の単調な演算子へのIQCの一般化として導入されています。
私たちの境界は、時間変化のミニマイザーと目的関数の変動のパス長の形で、問題の時間的変化速度をキャプチャします。
OCOの標準的な結果とは対照的に、我々の結果は、勾配の境界の仮定や境界のある実行可能なセットの仮定を必要としません。
数値分析では、機能クラスの条件番号に対する後悔の依存性をキャプチャするアプローチの能力を示しています。

要約(オリジナル)

We propose a novel approach for analyzing dynamic regret of first-order constrained online convex optimization algorithms for strongly convex and Lipschitz-smooth objectives. Crucially, we provide a general analysis that is applicable to a wide range of first-order algorithms that can be expressed as an interconnection of a linear dynamical system in feedback with a first-order oracle. By leveraging Integral Quadratic Constraints (IQCs), we derive a semi-definite program which, when feasible, provides a regret guarantee for the online algorithm. For this, the concept of variational IQCs is introduced as the generalization of IQCs to time-varying monotone operators. Our bounds capture the temporal rate of change of the problem in the form of the path length of the time-varying minimizer and the objective function variation. In contrast to standard results in OCO, our results do not require nerither the assumption of gradient boundedness, nor that of a bounded feasible set. Numerical analyses showcase the ability of the approach to capture the dependence of the regret on the function class condition number.

arxiv情報

著者 Fabian Jakob,Andrea Iannelli
発行日 2025-04-14 15:12:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC | Online Convex Optimization and Integral Quadratic Constraints: A new approach to regret analysis はコメントを受け付けていません

A Primer on Variational Inference for Physics-Informed Deep Generative Modelling

要約

変分推論(VI)は、近似ベイジアン推論のための計算効率的でスケーラブルな方法論です。
不確実性の定量化の精度と実際の扱いやすさのバランスをとっています。
ベイジアンの正規化と柔軟性、物理学関連の問題の本質的な資質が組み込まれているため、生成モデリングと反転タスクに優れています。
このような問題については、基礎となる物理モデルが目的の変数間の依存性を決定し、それが中央VI学習目標に合わせた導出を必要とするものです。
さらに、多くの物理的推論アプリケーションでは、この構造は豊富な意味を持ち、関心のあるダイナミクスを正確にキャプチャするために不可欠です。
このホワイトペーパーでは、VIへのアクセスしやすく徹底的な技術的な紹介を前向きおよび逆問題のために提供し、VIフレームワークの標準派生と、深い学習を通じてどのように実現できるかを読者に導きます。
次に、VIが許可された柔軟性を例示する最近の文献をレビューして統合します。
このペーパーは、不確実性の定量化に重点を置いて、物理学に基づく問題を解決しようとしている一般的な科学視聴者向けに設計されています

要約(オリジナル)

Variational inference (VI) is a computationally efficient and scalable methodology for approximate Bayesian inference. It strikes a balance between accuracy of uncertainty quantification and practical tractability. It excels at generative modelling and inversion tasks due to its built-in Bayesian regularisation and flexibility, essential qualities for physics related problems. For such problems, the underlying physical model determines the dependence between variables of interest, which in turn will require a tailored derivation for the central VI learning objective. Furthermore, in many physical inference applications this structure has rich meaning and is essential for accurately capturing the dynamics of interest. In this paper, we provide an accessible and thorough technical introduction to VI for forward and inverse problems, guiding the reader through standard derivations of the VI framework and how it can best be realized through deep learning. We then review and unify recent literature exemplifying the flexibility allowed by VI. This paper is designed for a general scientific audience looking to solve physics-based problems with an emphasis on uncertainty quantification

arxiv情報

著者 Alex Glyn-Davies,Arnaud Vadeboncoeur,O. Deniz Akyildiz,Ieva Kazlauskaite,Mark Girolami
発行日 2025-04-14 15:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph, stat.ML | A Primer on Variational Inference for Physics-Informed Deep Generative Modelling はコメントを受け付けていません

Domain-Adversarial Neural Network and Explainable AI for Reducing Tissue-of-Origin Signal in Pan-cancer Mortality Classification

要約

組織のオリジンシグナルは、汎癌遺伝子発現を支配し、患者の生存に関連する分子的特徴を曖昧にすることがよくあります。
モデルは生存に関連するシグナルをキャプチャするのではなく、組織固有のパターンに過剰に採用する傾向があるため、一般化可能なバイオマーカーの発見を妨げます。
これに対処するために、TCGA RNA-seqデータで訓練されたドメイン副産物ニューラルネットワーク(DANN)を提案して、組織に偏りが少なく生存に焦点を当てた表現を学習します。
組織に依存しない遺伝的プロファイルを特定することは、コアがんプログラムを明らかにするための鍵です。
以下を使用してDANNを評価します。(1)元の入力スペースとDannの死亡率分類器に基づいて、標準shap。
(2)生の活性化からの監視なしマニホールドや、死亡率固有のSHAP値からの監視された多様体など、隠された活性化に適用される層認識戦略。
標準的な整形は、その計算に固有のバイアスのため、組織信号によって混乱したままです。
生の活性化マニホールドは、微妙な組織と死亡関連信号を隠す高マグニチュードの活性化によって支配されていました。
対照的に、層を認識したSHAPマニホールドは、活性化強度とは無関係に、組織と死亡率の両方の低次元表現を改善し、亜集団層別化と生存関連遺伝子の汎キャンサーの同定を可能にします。

要約(オリジナル)

Tissue-of-origin signals dominate pan-cancer gene expression, often obscuring molecular features linked to patient survival. This hampers the discovery of generalizable biomarkers, as models tend to overfit tissue-specific patterns rather than capture survival-relevant signals. To address this, we propose a Domain-Adversarial Neural Network (DANN) trained on TCGA RNA-seq data to learn representations less biased by tissue and more focused on survival. Identifying tissue-independent genetic profiles is key to revealing core cancer programs. We assess the DANN using: (1) Standard SHAP, based on the original input space and DANN’s mortality classifier; (2) A layer-aware strategy applied to hidden activations, including an unsupervised manifold from raw activations and a supervised manifold from mortality-specific SHAP values. Standard SHAP remains confounded by tissue signals due to biases inherent in its computation. The raw activation manifold was dominated by high-magnitude activations, which masked subtle tissue and mortality-related signals. In contrast, the layer-aware SHAP manifold offers improved low-dimensional representations of both tissue and mortality signals, independent of activation strength, enabling subpopulation stratification and pan-cancer identification of survival-associated genes.

arxiv情報

著者 Cristian Padron-Manrique,Juan José Oropeza Valdez,Osbaldo Resendis-Antonio
発行日 2025-04-14 15:51:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | Domain-Adversarial Neural Network and Explainable AI for Reducing Tissue-of-Origin Signal in Pan-cancer Mortality Classification はコメントを受け付けていません

DUE: A Deep Learning Framework and Library for Modeling Unknown Equations

要約

方程式、特に微分方程式は、自然現象を理解し、さまざまな科学および工学分野で複雑なダイナミクスを予測するための基本です。
ただし、多くの複雑なシステムの統治方程式は、複雑な根本的なメカニズムのために不明のままです。
機械学習とデータサイエンスの最近の進歩は、測定データまたはシミュレーションデータから未知の方程式をモデル化するための新しいパラダイムを提供します。
データ駆動型の発見またはモデリングとして知られるこのパラダイムシフトは、科学のためにAIの最前線に立っており、最近では大きな進歩があります。
この論文では、深い学習を使用して未知の方程式のデータ駆動型モデリングのための体系的なフレームワークを紹介します。
この汎用性の高いフレームワークは、未知のODE、PDE、DAE、IDE、SDE、縮小または部分的に観察されたシステム、および非自律微分方程式を学習することができます。
このフレームワークに基づいて、最新のディープラーニング技術を使用して未知の方程式のデータ駆動型モデリングを促進するように設計されたオープンソースソフトウェアパッケージであるDeep Unknown Equations(DUE)を開発しました。
期日は、教室での指導のための教育ツールとして機能し、学生と新人が微分方程式、データ駆動型のモデリング、FNN、ResNet、一般化ResNet、オペレーターセミグループネットワーク(OSG-NET)、変圧器などの現代的な深い学習アプローチで実践的な経験を積むことができます。
さらに、Dueは、さまざまな科学および工学分野の研究者にとって、多目的でアクセス可能なツールキットです。
データから未知の方程式を学習するだけでなく、従来の数値方法を使用して解決するのに費用がかかる既知でありながら複雑な方程式のサロゲートモデリングにも適用されます。
Dueの詳細な説明を提供し、さまざまな例を通じてその機能を実証します。これは、他のアプリケーションに簡単に適応できるテンプレートとして機能します。

要約(オリジナル)

Equations, particularly differential equations, are fundamental for understanding natural phenomena and predicting complex dynamics across various scientific and engineering disciplines. However, the governing equations for many complex systems remain unknown due to intricate underlying mechanisms. Recent advancements in machine learning and data science offer a new paradigm for modeling unknown equations from measurement or simulation data. This paradigm shift, known as data-driven discovery or modeling, stands at the forefront of AI for science, with significant progress made in recent years. In this paper, we introduce a systematic framework for data-driven modeling of unknown equations using deep learning. This versatile framework is capable of learning unknown ODEs, PDEs, DAEs, IDEs, SDEs, reduced or partially observed systems, and non-autonomous differential equations. Based on this framework, we have developed Deep Unknown Equations (DUE), an open-source software package designed to facilitate the data-driven modeling of unknown equations using modern deep learning techniques. DUE serves as an educational tool for classroom instruction, enabling students and newcomers to gain hands-on experience with differential equations, data-driven modeling, and contemporary deep learning approaches such as FNN, ResNet, generalized ResNet, operator semigroup networks (OSG-Net), and Transformers. Additionally, DUE is a versatile and accessible toolkit for researchers across various scientific and engineering fields. It is applicable not only for learning unknown equations from data but also for surrogate modeling of known, yet complex, equations that are costly to solve using traditional numerical methods. We provide detailed descriptions of DUE and demonstrate its capabilities through diverse examples, which serve as templates that can be easily adapted for other applications.

arxiv情報

著者 Junfeng Chen,Kailiang Wu,Dongbin Xiu
発行日 2025-04-14 16:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.DS, math.NA, stat.ML | DUE: A Deep Learning Framework and Library for Modeling Unknown Equations はコメントを受け付けていません

Ctrl-Z: Controlling AI Agents via Resampling

要約

制御評価AIシステムの監視とセキュリティプロトコルが意図的に破壊的なAIモデルが害を引き起こすのを防ぐかどうかを測定します。
私たちの作品は、エージェント環境で実行された最初の制御評価を提示します。
257の挑戦的なマルチステップシステム管理タスクのデータセットであるBashbenchを構築し、さまざまな安全対策が敵対的に構築されたAIエージェントがこの環境で悪意のあるコードをひそかにダウンロードして実行することを防ぐことができるかどうかを評価します。
このマルチステップ設定では、新しい攻撃と防御のダイナミクスが導入されます。これは、非マリシャスエージェントが有用な作業を実行する能力を妨げることなく、安全障害を防ぐ新しい制御プロトコルを設計するために調査します。
特定のアクションの追加のサンプルを動的に採用するResampleプロトコルと呼ばれる制御プロトコルのクラスを導入します。
これらのプロトコルは、AIエージェントが疑わしいコードの実行を選択的にブロックし、危険な動作の追加の例を生成することでエージェントを罪にすることにより、既存の手法を大幅に改善することがわかります。
攻撃防止と有用性の間のトレードオフを測定します。
当社の最良のプロトコルは、リサンプリングと以前のステップの分析を組み合わせて、58%から7%のコストで攻撃の成功率を、非悪意のあるエージェントのパフォーマンスに低下させます。

要約(オリジナル)

Control evaluations measure whether monitoring and security protocols for AI systems prevent intentionally subversive AI models from causing harm. Our work presents the first control evaluation performed in an agent environment. We construct BashBench, a dataset of 257 challenging multi-step system administration tasks, and evaluate whether various safety measures can prevent an adversarially constructed AI agent from covertly downloading and executing malicious code in this environment. This multi-step setting introduces new attack and defense dynamics, which we investigate in order to design novel control protocols that prevent safety failures without hindering the ability of non-malicious agents to perform useful work. We introduce a class of control protocols called resample protocols that dynamically take additional samples of certain actions. We find these protocols significantly improve on existing techniques by selectively blocking the AI agent from executing suspicious code and incriminating the agent by generating additional examples of dangerous behavior. We measure the tradeoff between attack prevention and usefulness; our best protocol combines resampling with analysis of previous steps, reducing the success rate of attacks from 58% to 7% at a 5% cost to the performance of a non-malicious agent.

arxiv情報

著者 Aryan Bhatt,Cody Rushing,Adam Kaufman,Tyler Tracy,Vasil Georgiev,David Matolcsi,Akbir Khan,Buck Shlegeris
発行日 2025-04-14 16:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Ctrl-Z: Controlling AI Agents via Resampling はコメントを受け付けていません

Data-Driven Safety Verification using Barrier Certificates and Matrix Zonotopes

要約

サイバー物理システム(CPSS)での安全性を確保することは、特に不確実性、モデリングエラー、または環境障害のためにシステムモデルを取得が困難であるか、完全に信頼できない場合に重要な課題です。
従来のモデルベースのアプローチは、実際のシナリオでは利用できない場合がある正確なシステムダイナミクスに依存しています。
これに対処するために、マトリックスゾノトープとバリア証明書を活用するデータ駆動型の安全検証フレームワークを提案して、騒々しいデータからシステムの安全性を直接確認します。
単一の信頼性の低いモデルを信頼する代わりに、観測されたデータに沿ったすべての可能なシステムダイナミクスをキャプチャする一連のモデルを構築し、真のシステムモデルが常にこのセットに含まれるようにします。
このモデルセットは、マトリックスゾノトープを使用してコンパクトに表され、効率的な計算と不確実性の伝播を可能にします。
この表現をバリア証明書のフレームワークに統合することにより、明示的なシステムモデルを必要とせずに厳密な安全保証を確立します。
数値実験は、不明なモデルを持つ動的システムの安全性を検証する際のアプローチの有効性を示しており、実際のCPSアプリケーションの可能性を示しています。

要約(オリジナル)

Ensuring safety in cyber-physical systems (CPSs) is a critical challenge, especially when system models are difficult to obtain or cannot be fully trusted due to uncertainty, modeling errors, or environmental disturbances. Traditional model-based approaches rely on precise system dynamics, which may not be available in real-world scenarios. To address this, we propose a data-driven safety verification framework that leverages matrix zonotopes and barrier certificates to verify system safety directly from noisy data. Instead of trusting a single unreliable model, we construct a set of models that capture all possible system dynamics that align with the observed data, ensuring that the true system model is always contained within this set. This model set is compactly represented using matrix zonotopes, enabling efficient computation and propagation of uncertainty. By integrating this representation into a barrier certificate framework, we establish rigorous safety guarantees without requiring an explicit system model. Numerical experiments demonstrate the effectiveness of our approach in verifying safety for dynamical systems with unknown models, showcasing its potential for real-world CPS applications.

arxiv情報

著者 Mohammed Adib Oumer,Amr Alanwar,Majid Zamani
発行日 2025-04-14 16:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.FL, cs.LG, cs.SY, eess.SY | Data-Driven Safety Verification using Barrier Certificates and Matrix Zonotopes はコメントを受け付けていません

Inferring genotype-phenotype maps using attention models

要約

遺伝子型から表現型を予測することは、遺伝学の中心的な課題です。
定量的遺伝学における従来のアプローチは、通常、線形回帰に基づいた方法を使用してこの問題を分析します。
これらの方法は一般に、複雑な形質の遺伝的構造は、遺伝子座の効果が独立している加法モデルの観点からパラメーター化される可能性があることを前提としています。
しかし、これらのモデルは、より複雑なエピスタシスまたは微妙な遺伝子環境相互作用の分析に苦労しています。
機械学習の最近の進歩、特に注意ベースのモデルは、有望な代替品を提供します。
当初、自然言語処理のために開発された注意ベースのモデルは、コンテキスト依存の相互作用のキャプチャに優れており、タンパク質の構造と機能を予測する上で例外的なパフォーマンスを示しています。
ここでは、定量的遺伝学に注意ベースのモデルを適用します。
この注意ベースのアプローチのパフォーマンスを、遺伝子型からの表現型を予測する際のパフォーマンスを分析します。さまざまなモデルにわたってシミュレートされたデータを使用して、エピスタティックな複雑さを高め、出芽酵母における最近の定量的特性遺伝子座マッピング研究の実験データを使用します。
我々のモデルは、標準的な方法と比較して、上結果系の優れたサンプル外予測を実証していることがわかります。
また、より一般的なマルチ環境注意ベースのモデルを探索して、複数の環境で遺伝子型表現型マップを共同で分析し、そのようなアーキテクチャを「転送学習」に使用できることを示しています。

要約(オリジナル)

Predicting phenotype from genotype is a central challenge in genetics. Traditional approaches in quantitative genetics typically analyze this problem using methods based on linear regression. These methods generally assume that the genetic architecture of complex traits can be parameterized in terms of an additive model, where the effects of loci are independent, plus (in some cases) pairwise epistatic interactions between loci. However, these models struggle to analyze more complex patterns of epistasis or subtle gene-environment interactions. Recent advances in machine learning, particularly attention-based models, offer a promising alternative. Initially developed for natural language processing, attention-based models excel at capturing context-dependent interactions and have shown exceptional performance in predicting protein structure and function. Here, we apply attention-based models to quantitative genetics. We analyze the performance of this attention-based approach in predicting phenotype from genotype using simulated data across a range of models with increasing epistatic complexity, and using experimental data from a recent quantitative trait locus mapping study in budding yeast. We find that our model demonstrates superior out-of-sample predictions in epistatic regimes compared to standard methods. We also explore a more general multi-environment attention-based model to jointly analyze genotype-phenotype maps across multiple environments and show that such architectures can be used for ‘transfer learning’ – predicting phenotypes in novel environments with limited training data.

arxiv情報

著者 Krishna Rijal,Caroline M. Holmes,Samantha Petti,Gautam Reddy,Michael M. Desai,Pankaj Mehta
発行日 2025-04-14 16:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.GN, q-bio.PE | Inferring genotype-phenotype maps using attention models はコメントを受け付けていません

Scalable Bayesian Learning with posteriors

要約

理論的には説得力がありますが、最新の機械学習モデルを使用したベイジアン学習は、高次元の後方分布を近似する必要があるため、計算上困難です。
この作業では、(i)ポステリオルを紹介します。これは、汎用実装をホストする簡単に拡張できるPytorchライブラリを紹介します。
(ii)事後に実装されている確率勾配マルコフチェーンモンテカルロの焼き戻しフレーミングを提示し、最適化にシームレスに移行し、深いアンサンブルにマイナーな修正を発表して、ベイジアン後部に対して漸近的に偏っていないことを保証し、(III)は、cosposian expection ablicationのユーティリティを介してbayesian efperimentを介してbayesian eppentionを介して、bayesian expectionの影響を実証し、(III)に耐えられないようにします。
モデル。

要約(オリジナル)

Although theoretically compelling, Bayesian learning with modern machine learning models is computationally challenging since it requires approximating a high dimensional posterior distribution. In this work, we (i) introduce posteriors, an easily extensible PyTorch library hosting general-purpose implementations making Bayesian learning accessible and scalable to large data and parameter regimes; (ii) present a tempered framing of stochastic gradient Markov chain Monte Carlo, as implemented in posteriors, that transitions seamlessly into optimization and unveils a minor modification to deep ensembles to ensure they are asymptotically unbiased for the Bayesian posterior, and (iii) demonstrate and compare the utility of Bayesian approximations through experiments including an investigation into the cold posterior effect and applications with large language models.

arxiv情報

著者 Samuel Duffield,Kaelan Donatella,Johnathan Chiu,Phoebe Klett,Daniel Simpson
発行日 2025-04-14 16:36:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Scalable Bayesian Learning with posteriors はコメントを受け付けていません

Adaptive Test-Time Intervention for Concept Bottleneck Models

要約

コンセプトボトルネックモデル(CBM)は、深い学習モデルアーキテクチャ内のボトルネックの人間レベルの「概念」を予測することにより、モデルの解釈性を向上させることを目的としています。
ただし、ターゲットを予測する際に予測された概念がどのように使用されるかは、まだブラックボックスのままであるか、予測パフォーマンスのコストで解釈可能性を維持するために単純化されています。
私たちは、速い解釈可能な貪欲な総計(図)を使用して、バイナリ蒸留(BD)を取得することを提案します。
Figs-BDと呼ばれるこの新しい方法は、CBM教師の競争力のある予測パフォーマンスを維持しながら、CBMのバイナリの継続的な概念部分を解釈可能なツリーベースのモデルに蒸留します。
Figs-BDは、下流タスクで使用され、CBMの予測を解釈可能なバイナリ概念相互作用の属性に説明および分解し、適応テスト時間介入をガイドできます。
4つのデータセットで、適応テストタイム介入が、限られた概念介入のみを可能にする現実的な人間のループ設定のパフォーマンスを大幅に改善する重要な概念を特定していることを実証します。

要約(オリジナル)

Concept bottleneck models (CBM) aim to improve model interpretability by predicting human level ‘concepts’ in a bottleneck within a deep learning model architecture. However, how the predicted concepts are used in predicting the target still either remains black-box or is simplified to maintain interpretability at the cost of prediction performance. We propose to use Fast Interpretable Greedy Sum-Trees (FIGS) to obtain Binary Distillation (BD). This new method, called FIGS-BD, distills a binary-augmented concept-to-target portion of the CBM into an interpretable tree-based model, while maintaining the competitive prediction performance of the CBM teacher. FIGS-BD can be used in downstream tasks to explain and decompose CBM predictions into interpretable binary-concept-interaction attributions and guide adaptive test-time intervention. Across 4 datasets, we demonstrate that our adaptive test-time intervention identifies key concepts that significantly improve performance for realistic human-in-the-loop settings that only allow for limited concept interventions.

arxiv情報

著者 Matthew Shen,Aliyah Hsu,Abhineet Agarwal,Bin Yu
発行日 2025-04-14 16:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Adaptive Test-Time Intervention for Concept Bottleneck Models はコメントを受け付けていません

Robust Learning of Multi-index Models via Iterative Subspace Approximation

要約

ガウス分布の下でラベルノイズを使用して、マルチインデックスモデル(MIM)を学習するタスクを研究します。
A $ k $ -MIMは、$ k $ -dimensionalサブスペースにのみ依存する関数$ f $です。
特定の規則性特性を満たす有限範囲を持つ、行儀の良いMIMに焦点を当てます。
私たちの主な貢献は、統計クエリ(SQ)モデルで定性的に最適な一般的な堅牢な学習者です。
私たちのアルゴリズムは、これまでに計算されたサブスペースへの投影を条件とし、比較的大きな経験的モーメントを持つ方向を追加することを条件とする低程度のモーメントを計算することにより、定義サブスペースのより良い近似を繰り返し構築します。
この手順は、$ f(\ mathbf {x})$が$ \ mathbf {x} $の投影の関数に近いように、サブスペース$ v $を効率的に見つけます。
逆に、これらの条件付きモーメントが役に立たない機能については、効率的な学習者が存在しないことを示唆するSQの下限を証明します。
アプリケーションとして、次の概念クラスに対してより高速な堅牢な学習者を提供します: * {\ bfマルチクラス線形分類器}私たちは、サンプルの複雑さを備えた一定の因子の概算学習者に$ n = o(d)2^{\ mathrm {poly}(k/\ epsilon)}} $および計算複雑さ$ \ mathrm {polim {polim {
これは、このクラスの最初の一定の因子不可知論者学習者であり、その複雑さは$ d $の固定級多項式です。
* {\ bfハーフスペースの交差点}このクラスの近似不可知論学習者に0-1エラー$ k \ tilde {o}(\ mathrm {opt}) + \ epsilon $ with supplementity $ n = o(d^2)2^{\ mathrm {poly}(k/\ epsilon)(k/\ epsilon)
$ \ mathrm {poly}(n、d)$。
これは、このクラスの最初の不可知論者の学習者であり、ほぼ線形の誤差依存性と複雑さが$ d $の固定級多項式です。
さらに、ランダム分類ノイズが存在する場合、アルゴリズムの複雑さは、$ 1/\ epsilon $で多項式的にスケーリングすることを示しています。

要約(オリジナル)

We study the task of learning Multi-Index Models (MIMs) with label noise under the Gaussian distribution. A $K$-MIM is any function $f$ that only depends on a $K$-dimensional subspace. We focus on well-behaved MIMs with finite ranges that satisfy certain regularity properties. Our main contribution is a general robust learner that is qualitatively optimal in the Statistical Query (SQ) model. Our algorithm iteratively constructs better approximations to the defining subspace by computing low-degree moments conditional on the projection to the subspace computed thus far, and adding directions with relatively large empirical moments. This procedure efficiently finds a subspace $V$ so that $f(\mathbf{x})$ is close to a function of the projection of $\mathbf{x}$ onto $V$. Conversely, for functions for which these conditional moments do not help, we prove an SQ lower bound suggesting that no efficient learner exists. As applications, we provide faster robust learners for the following concept classes: * {\bf Multiclass Linear Classifiers} We give a constant-factor approximate agnostic learner with sample complexity $N = O(d) 2^{\mathrm{poly}(K/\epsilon)}$ and computational complexity $\mathrm{poly}(N ,d)$. This is the first constant-factor agnostic learner for this class whose complexity is a fixed-degree polynomial in $d$. * {\bf Intersections of Halfspaces} We give an approximate agnostic learner for this class achieving 0-1 error $K \tilde{O}(\mathrm{OPT}) + \epsilon$ with sample complexity $N=O(d^2) 2^{\mathrm{poly}(K/\epsilon)}$ and computational complexity $\mathrm{poly}(N ,d)$. This is the first agnostic learner for this class with near-linear error dependence and complexity a fixed-degree polynomial in $d$. Furthermore, we show that in the presence of random classification noise, the complexity of our algorithm scales polynomially with $1/\epsilon$.

arxiv情報

著者 Ilias Diakonikolas,Giannis Iakovidis,Daniel M. Kane,Nikos Zarifis
発行日 2025-04-14 16:41:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH | Robust Learning of Multi-index Models via Iterative Subspace Approximation はコメントを受け付けていません