Logits-Based Finetuning

要約

近年、コンパクトで効率的な大規模な言語モデル(LLMS)の開発は、研究の繁栄した分野として浮上しています。
特異なグラウンドトゥルースラベルに依存している従来の監視施設微調整(SFT)は、トークンレベルの依存関係と言語の多様性をキャプチャできないことがよくあります。
これらの制限に対処するために、監督された学習と知識の蒸留の強みを統合するロジットベースの微調整フレームワークを提案します。
私たちのアプローチは、教師のロジットと地上の真理ラベルを組み合わせて、正確性と言語の多様性の両方を維持することにより、豊富なトレーニングターゲットを構築します。
これにより、より信頼性の高い効果的なトレーニングが保証されます。
大規模な1.2mロジッツデータセットを構築し、一連のサイエンスに焦点を当てたモデルをトレーニングしました。
実験結果は、私たちの方法が大幅な改善を達成し、MAWPで18%、TABMWPで22.7%の精度が得られることを示しています。
広く使用されている9つの数学ベンチマークにまたがるこの方法は、以前のSFTモデルよりも一貫して優れており、平均改善が7.28%を達成しています。
コードはhttps://github.com/dvlab-research/logitsベースのフィネトゥニングで入手できます。

要約(オリジナル)

In recent years, developing compact and efficient large language models (LLMs) has emerged as a thriving area of research. Traditional Supervised Fine-Tuning (SFT), which relies on singular ground truth labels, often fails to capture token-level dependencies and linguistic diversity. To address these limitations, we propose a logits-based fine-tuning framework that integrates the strengths of supervised learning and knowledge distillation. Our approach constructs enriched training targets by combining teacher logits with ground truth labels, preserving both correctness and linguistic diversity. This ensures more reliable and effective training. We constructed a large-scale 1.2M logits dataset and trained a series of science-focused models. Experimental results demonstrate that our method achieves significant improvements, with accuracy gains of 18% on Mawps and 22.7% on TabMWP. Across nine widely used mathematical benchmarks, our method consistently outperforms prior SFT models, achieving an average improvement of 7.28%. Codes are available at https://github.com/dvlab-research/Logits-Based-Finetuning.

arxiv情報

著者 Jingyao Li,Senqiao Yang,Sitong Wu,Han Shi,Chuanyang Zheng,Hong Xu,Jiaya Jia
発行日 2025-06-11 16:40:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Logits-Based Finetuning はコメントを受け付けていません

Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning

要約

Machine Ulearning(MU)は、トレーニングサンプルとトレーニングされたモデルへの影響を削除するリクエストに続いて、元のMLモデルをゼロから再トレーニングすることなく、機械学習(ML)モデルを更新することを目指しています。
MU自体はプライバシー保護と規制のコンプライアンスを提供するために採用されていますが、モデルの攻撃面を増やすこともできます。
未学習セットのプロパティを推測することを目的としたMUに対する既存のプライバシー推論攻撃は、攻撃者が非学習モデルと元のモデルの両方にアクセスできると仮定し、現実のシナリオへの実現可能性を制限していると仮定する弱い脅威モデルに依存しています。
新しいプライバシー攻撃を提案します。これは、敵が未学習モデルのラベル出力にアクセスできる厳格な脅威モデルに従って、データサンプルが学習されていないかどうかを推測するMU、Apolloに対する事後ラベルのメンバーシップ推論攻撃です。
提案された攻撃は、以前の攻撃と比較してターゲットモデルへのアクセスが少なくなりますが、非学習サンプルのメンバーシップステータスの比較的高い精度を達成できることを実証します。

要約(オリジナル)

Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.

arxiv情報

著者 Liou Tang,James Joshi,Ashish Kundu
発行日 2025-06-11 16:43:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning はコメントを受け付けていません

Dynamic Diffusion Schrödinger Bridge in Astrophysical Observational Inversions

要約

動的な天体物理システムのコンテキストで拡散Schr \ ‘Odinger Bridge(DSB)モデルを研究し、星形成のための巨大な分子雲(GMC)内の観測逆予測タスクに特に取り組んでいます。
Astro-DSBモデルは、天体物理学的ダイナミクスに合わせて調整されたペアワイズドメインの仮定を持つDSBのバリアントを紹介します。
物理的にシミュレートされたデータと実際の観察(おうし座B213データ)の両方で、その学習プロセスと予測パフォーマンスを調査することにより、2つの主要なテイクアウトを提示します。
まず、天体物理学の観点から、提案されたペアのDSBメソッドは、従来の宇宙攻撃およびその他の機械学習方法よりも解釈可能性、学習効率、および予測パフォーマンスを改善します。
第二に、生成モデリングの観点から見ると、確率的生成モデリングは、目に見えない初期条件と異なる支配的な物理プロセスを伴う物理シミュレーションの分散分布(OOD)テストの識別ピクセル間モデリングの改善を明らかにします。
私たちの研究は、従来の視覚合成アプリケーションを超えて拡散モデルの研究を拡大し、純粋なデータ統計を超えたモデルの学習能力の証拠を提供し、機械学習と実際の(アストロ)物理システムの間でダイナミクスを整列させることができる将来の物理学を意識する生成モデルへの道を開いています。

要約(オリジナル)

We study Diffusion Schr\’odinger Bridge (DSB) models in the context of dynamical astrophysical systems, specifically tackling observational inverse prediction tasks within Giant Molecular Clouds (GMCs) for star formation. We introduce the Astro-DSB model, a variant of DSB with the pairwise domain assumption tailored for astrophysical dynamics. By investigating its learning process and prediction performance in both physically simulated data and in real observations (the Taurus B213 data), we present two main takeaways. First, from the astrophysical perspective, our proposed paired DSB method improves interpretability, learning efficiency, and prediction performance over conventional astrostatistical and other machine learning methods. Second, from the generative modeling perspective, probabilistic generative modeling reveals improvements over discriminative pixel-to-pixel modeling in Out-Of-Distribution (OOD) testing cases of physical simulations with unseen initial conditions and different dominant physical processes. Our study expands research into diffusion models beyond the traditional visual synthesis application and provides evidence of the models’ learning abilities beyond pure data statistics, paving a path for future physics-aware generative models which can align dynamics between machine learning and real (astro)physical systems.

arxiv情報

著者 Ye Zhu,Duo Xu,Zhiwei Deng,Jonathan C. Tan,Olga Russakovsky
発行日 2025-06-11 16:43:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.LG | Dynamic Diffusion Schrödinger Bridge in Astrophysical Observational Inversions はコメントを受け付けていません

Mamba time series forecasting with uncertainty quantification

要約

マンバなどの状態空間モデルは、シーケンスパターンをキャプチャする能力により、最近、時系列予測で注目を集めています。
ただし、電力消費ベンチマークでは、Mambaの予測は平均誤差の約8 \%を示します。
同様に、トラフィック占有ベンチマークでは、平均エラーは18 \%に達します。
この矛盾により、予測が単に不正確であるか、履歴データに広がっているとエラー内に該当するのか疑問に思うようになります。
この制限に対処するために、MAMBA予測の予測不確実性を定量化する方法を提案します。
ここでは、確率的予測のMambaアーキテクチャに基づいたデュアルネットワークフレームワークを提案します。ここでは、1つのネットワークがポイント予測を生成し、他のネットワークは分散をモデル化することにより予測不確実性を推定します。
Mamba-Probtsfとその実装のコードはGithub(https://github.com/pessoap/mamba-probtsf)で利用できるように、Mamba-probtsfとその実装のコードを使用できるため、Mambaを確率的時系列予測で略します。
合成および実世界のベンチマークデータセットでこのアプローチを評価すると、学習された分布とデータの間のKullback-Leiblerの発散は、無限のデータの限界で、モデルがゼロに収束するはずです。
その有効性。
電力消費量と交通占有ベンチマークの両方で、真の軌道は、約95%の時間で2シグマレベルで予測される不確実性間隔内にとどまることがわかります。
潜在的な制限、パフォーマンスを改善するための調整、およびこのフレームワークを、純粋なブラウン運動や分子動力学の軌跡で観察されるように、確率的変化が蓄積する純粋または大部分の確率的ダイナミクスのプロセスにこのフレームワークを適用するための考慮事項を考慮して終わります。

要約(オリジナル)

State space models, such as Mamba, have recently garnered attention in time series forecasting due to their ability to capture sequence patterns. However, in electricity consumption benchmarks, Mamba forecasts exhibit a mean error of approximately 8\%. Similarly, in traffic occupancy benchmarks, the mean error reaches 18\%. This discrepancy leaves us to wonder whether the prediction is simply inaccurate or falls within error given spread in historical data. To address this limitation, we propose a method to quantify the predictive uncertainty of Mamba forecasts. Here, we propose a dual-network framework based on the Mamba architecture for probabilistic forecasting, where one network generates point forecasts while the other estimates predictive uncertainty by modeling variance. We abbreviate our tool, Mamba with probabilistic time series forecasting, as Mamba-ProbTSF and the code for its implementation is available on GitHub (https://github.com/PessoaP/Mamba-ProbTSF). Evaluating this approach on synthetic and real-world benchmark datasets, we find Kullback-Leibler divergence between the learned distributions and the data–which, in the limit of infinite data, should converge to zero if the model correctly captures the underlying probability distribution–reduced to the order of $10^{-3}$ for synthetic data and $10^{-1}$ for real-world benchmark, demonstrating its effectiveness. We find that in both the electricity consumption and traffic occupancy benchmark, the true trajectory stays within the predicted uncertainty interval at the two-sigma level about 95\% of the time. We end with a consideration of potential limitations, adjustments to improve performance, and considerations for applying this framework to processes for purely or largely stochastic dynamics where the stochastic changes accumulate, as observed for example in pure Brownian motion or molecular dynamics trajectories.

arxiv情報

著者 Pedro Pessoa,Paul Campitelli,Douglas P. Shepherd,S. Banu Ozkan,Steve Pressé
発行日 2025-06-11 16:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, nlin.CD, stat.ML | Mamba time series forecasting with uncertainty quantification はコメントを受け付けていません

Bayesian Probabilistic Matrix Factorization

要約

マトリックス因数分解は、推奨システムで広く使用されている手法です。
確率的マトリックス因数分解(PMF)[1]は、潜在因子に確率分布を組み込むことにより、従来のマトリックス因数分解を拡張し、不確実性の定量化を可能にします。
ただし、高次元の積分により、事後分布を計算することは扱いにくいです。
これに対処するために、2つのベイジアン推論方法:マルコフチェーンモンテカルロ(MCMC)[2]と変分推論(VI)[3]を使用して、後部を近似します。
Movielensデータセットでのパフォーマンスを評価し、収束速度、予測精度、計算効率を比較します。
実験結果は、VIがより速い収束を提供することを示していますが、MCMCはより正確な事後推定値を提供することを示しています。

要約(オリジナル)

Matrix factorization is a widely used technique in recommendation systems. Probabilistic Matrix Factorization (PMF) [1] extends traditional matrix factorization by incorporating probability distributions over latent factors, allowing for uncertainty quantification. However, computing the posterior distribution is intractable due to the high-dimensional integral. To address this, we employ two Bayesian inference methods: Markov Chain Monte Carlo (MCMC) [2] and Variational Inference (VI) [3] to approximate the posterior. We evaluate their performance on MovieLens dataset and compare their convergence speed, predictive accuracy, and computational efficiency. Experimental results demonstrate that VI offers faster convergence, while MCMC provides more accurate posterior estimates.

arxiv情報

著者 Ruixuan Xu,Xiangxiang Weng
発行日 2025-06-11 16:51:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Bayesian Probabilistic Matrix Factorization はコメントを受け付けていません

RNE: a plug-and-play framework for diffusion density estimation and inference-time control

要約

この論文では、パス分布間の密度比の概念に基づいて、拡散推論時間密度の推定と制御のための柔軟なプラグアンドプレイフレームワークであるRadon-Nikodym推定器(RNE)を紹介します。
RNEは、基本的な変動推論と確率論的原理に起因する、単一の直感的な視点の下で、さまざまな既存の密度推定および推論時間制御方法を接続および統合します。
実験は、RNEが拡散密度の推定で強力な結果をもたらし、有望な推論時間スケーリングパフォーマンスを備えた、アニーリング、拡散モデルの構成、報酬傾斜などの推論時間制御タスクに幅広い適用可能性を提供することを示しています。

要約(オリジナル)

In this paper, we introduce the Radon-Nikodym Estimator (RNE), a flexible, plug-and-play framework for diffusion inference-time density estimation and control, based on the concept of the density ratio between path distributions. RNE connects and unifies a variety of existing density estimation and inference-time control methods under a single and intuitive perspective, stemming from basic variational inference and probabilistic principles therefore offering both theoretical clarity and practical versatility. Experiments demonstrate that RNE delivers strong results in diffusion density estimation, and offers broad applicability to inference-time control tasks — such as annealing, diffusion model composition, and reward-tilting — with promising inference-time scaling performance.

arxiv情報

著者 Jiajun He,José Miguel Hernández-Lobato,Yuanqi Du,Francisco Vargas
発行日 2025-06-11 16:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | RNE: a plug-and-play framework for diffusion density estimation and inference-time control はコメントを受け付けていません

Generate-then-Verify: Reconstructing Data from Limited Published Statistics

要約

集計統計から表形式データを再構築する問題を研究します。攻撃者は、集合体を考慮して100%確実に検証できる機密データに関する興味深い主張を特定することを目指しています。
以前の作業での成功した試みは、公開された統計のセットが十分に豊富であるため、データセット全体を確実に再構築できる設定で研究を実施しました。
私たちの作業では、代わりに、多くの可能なデータセットが公開されている統計と一致する体制に焦点を当て、プライベートデータセット全体を完全に再構築することを不可能にします(つまり、以前の作業のアプローチが失敗したとき)。
敵の目標は、代わりに$ \ textit {subset} $を、$ \ textit {正しいものに保証されている} $の列の$ \ textit {subset} $を出力することです。
最初の$ \ textbf {generates} $のクレームのセット、次に$ \ textbf {verififies} $を紹介する新しい整数プログラミングアプローチを紹介します。
米国の10年生の国勢調査リリースからの住宅レベルのマイクロダタに関するアプローチを評価し、そのようなデータに関する情報が比較的まばらである場合でも、プライバシー違反が依然として持続できることを実証しています。

要約(オリジナル)

We study the problem of reconstructing tabular data from aggregate statistics, in which the attacker aims to identify interesting claims about the sensitive data that can be verified with 100% certainty given the aggregates. Successful attempts in prior work have conducted studies in settings where the set of published statistics is rich enough that entire datasets can be reconstructed with certainty. In our work, we instead focus on the regime where many possible datasets match the published statistics, making it impossible to reconstruct the entire private dataset perfectly (i.e., when approaches in prior work fail). We propose the problem of partial data reconstruction, in which the goal of the adversary is to instead output a $\textit{subset}$ of rows and/or columns that are $\textit{guaranteed to be correct}$. We introduce a novel integer programming approach that first $\textbf{generates}$ a set of claims and then $\textbf{verifies}$ whether each claim holds for all possible datasets consistent with the published aggregates. We evaluate our approach on the housing-level microdata from the U.S. Decennial Census release, demonstrating that privacy violations can still persist even when information published about such data is relatively sparse.

arxiv情報

著者 Terrance Liu,Eileen Xiao,Adam Smith,Pratiksha Thaker,Zhiwei Steven Wu
発行日 2025-06-11 16:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML | Generate-then-Verify: Reconstructing Data from Limited Published Statistics はコメントを受け付けていません

Limits of nonlinear and dispersive fiber propagation for an optical fiber-based extreme learning machine

要約

光ファイバ伝播に基づいて、極端な学習マシン(ELM)の一般化された非線形Schr \ ‘Odinger方程式シミュレーションモデルを報告します。
ベンチマークとしてMnistの手書きの桁データセットを使用して、精度が伝播ダイナミクス、およびスペクトルエンコード、読み取り、およびノイズを管理するパラメーターにどのように依存するかを調べます。
このデータセットとQuantum Noise Limited入力の場合、テスト精度:それぞれ91%以上の精度が異常および正常分散領域の伝播に見られます。
また、私たちの結果は、入力パルスの量子ノイズがELMのパフォーマンスに固有のペナルティを導入することを示唆しています。

要約(オリジナル)

We report a generalized nonlinear Schr\’odinger equation simulation model of an extreme learning machine (ELM) based on optical fiber propagation. Using the MNIST handwritten digit dataset as a benchmark, we study how accuracy depends on propagation dynamics, as well as parameters governing spectral encoding, readout, and noise. For this dataset and with quantum noise limited input, test accuracies of : over 91% and 93% are found for propagation in the anomalous and normal dispersion regimes respectively. Our results also suggest that quantum noise on the input pulses introduces an intrinsic penalty to ELM performance.

arxiv情報

著者 Andrei V. Ermolaev,Mathilde Hary,Lev Leybov,Piotr Ryczkowski,Anas Skalli,Daniel Brunner,Goëry Genty,John M. Dudley
発行日 2025-06-11 16:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.optics | Limits of nonlinear and dispersive fiber propagation for an optical fiber-based extreme learning machine はコメントを受け付けていません

Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order

要約

大型言語モデル(LLMS)の微調整は、事前に訓練されたモデルをダウンストリームタスクに適応させるために不可欠です。
しかし、確率的勾配降下(SGD)やAdamなどの従来の1次オプティマイザーは、モデルサイズで縮小する法外なメモリと計算コストを負担します。
このホワイトペーパーでは、特にLORAのようなパラメーター効率の高い微調整技術のコンテキストで、メモリおよび計算効率の高い代替品としてゼロオーダー(ZO)最適化方法を調査します。
ZO SignsGDを拡張するZOモメンタムベースのアルゴリズムである$ \ texttt {jaguar signsgd} $を提案します。
私たちの知る限り、これは確率的ZOケースでSignsgDの厳密な収束保証を確立する最初の研究です。
さらに、モデルパラメーターのマトリックス構造を活用するMuonオプティマイザーの新しいZO拡張である$ \ texttt {Jaguar Muon} $を提案し、任意の確率ノイズの下で収束速度を提供します。
挑戦的なLLM微調整ベンチマークに関する広範な実験を通じて、提案されたアルゴリズムが標準の1次方法の収束品質を満たしているか、それを超えて、大幅なメモリ削減を達成することを実証します。
当社の理論的および経験的結果は、リソースに制約のあるLLM適応のための実用的および理論的に根拠のあるアプローチとして、新しいZO最適化方法を確立しています。
私たちのコードはhttps://github.com/brain-mmo-lab/zo_llmで入手できます

要約(オリジナル)

Fine-tuning Large Language Models (LLMs) is essential for adapting pre-trained models to downstream tasks. Yet traditional first-order optimizers such as Stochastic Gradient Descent (SGD) and Adam incur prohibitive memory and computational costs that scale poorly with model size. In this paper, we investigate zero-order (ZO) optimization methods as a memory- and compute-efficient alternative, particularly in the context of parameter-efficient fine-tuning techniques like LoRA. We propose $\texttt{JAGUAR SignSGD}$, a ZO momentum-based algorithm that extends ZO SignSGD, requiring the same number of parameters as the standard ZO SGD and only $\mathcal{O}(1)$ function evaluations per iteration. To the best of our knowledge, this is the first study to establish rigorous convergence guarantees for SignSGD in the stochastic ZO case. We further propose $\texttt{JAGUAR Muon}$, a novel ZO extension of the Muon optimizer that leverages the matrix structure of model parameters, and we provide its convergence rate under arbitrary stochastic noise. Through extensive experiments on challenging LLM fine-tuning benchmarks, we demonstrate that the proposed algorithms meet or exceed the convergence quality of standard first-order methods, achieving significant memory reduction. Our theoretical and empirical results establish new ZO optimization methods as a practical and theoretically grounded approach for resource-constrained LLM adaptation. Our code is available at https://github.com/brain-mmo-lab/ZO_LLM

arxiv情報

著者 Egor Petrov,Grigoriy Evseev,Aleksey Antonov,Andrey Veprikov,Pavel Plyusnin,Nikolay Bushkov,Stanislav Moiseev,Aleksandr Beznosikov
発行日 2025-06-11 17:05:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order はコメントを受け付けていません

Scalable First-order Method for Certifying Optimal k-Sparse GLMs

要約

このペーパーでは、スパース一般化線形モデル(GLMS)の最適性を証明する問題を調査します。ここでは、$ \ ell_0 $のカーディナリティ制約を通じてスパースが施行されます。
ブランチアンドバウンド(BNB)フレームワークは、デュアル境界を使用してノードを剪定することにより最適性を証明できますが、これらの境界を計算するための既存の方法は、計算的に集中的であるか、ゆっくりと収束を示し、スケーラビリティを大規模な問題に制限します。
この課題に対処するために、BNBフレームワーク内の問題の視点緩和を解決するために設計された1次近位勾配アルゴリズムを提案します。
具体的には、リラックスした問題を複合最適化問題として定式化し、非スムースコンポーネントの近位演算子を対数線形時間の複雑さで正確に計算できることを実証し、計算高価な2次コーンプログラムを解決する必要性を排除します。
さらに、収束速度を強化しながら、投与ごとの複雑さを維持しながら、簡単な再起動戦略を導入します。
合成および現実世界のデータセットに関する広範な実験は、このアプローチが二重結合計算を大幅に加速し、大規模な問題の最適性証明書を提供するのに非常に効果的であることを示しています。

要約(オリジナル)

This paper investigates the problem of certifying optimality for sparse generalized linear models (GLMs), where sparsity is enforced through an $\ell_0$ cardinality constraint. While branch-and-bound (BnB) frameworks can certify optimality by pruning nodes using dual bounds, existing methods for computing these bounds are either computationally intensive or exhibit slow convergence, limiting their scalability to large-scale problems. To address this challenge, we propose a first-order proximal gradient algorithm designed to solve the perspective relaxation of the problem within a BnB framework. Specifically, we formulate the relaxed problem as a composite optimization problem and demonstrate that the proximal operator of the non-smooth component can be computed exactly in log-linear time complexity, eliminating the need to solve a computationally expensive second-order cone program. Furthermore, we introduce a simple restart strategy that enhances convergence speed while maintaining low per-iteration complexity. Extensive experiments on synthetic and real-world datasets show that our approach significantly accelerates dual bound computations and is highly effective in providing optimality certificates for large-scale problems.

arxiv情報

著者 Jiachang Liu,Soroosh Shafiee,Andrea Lodi
発行日 2025-06-11 17:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Scalable First-order Method for Certifying Optimal k-Sparse GLMs はコメントを受け付けていません