A method for classification of data with uncertainty using hypothesis testing

要約

バイナリ分類は、2つの異なるクラスのいずれかにデータを分類するタスクです。
さまざまな分野で広く利用されています。
ただし、従来の分類器は、2つのクラス分布のオーバーラップ領域に属するデータまたは分布外のデータ(分散データ外データ)に属するデータに対して自信過剰予測を行う傾向があります。
したがって、分類結果が重大な結果をもたらす可能性のある高リスクフィールドには、従来の分類器を適用しないでください。
この問題に対処するためには、不確実性を定量化し、それを考慮した意思決定アプローチを採用する必要があります。
この目的のために多くの方法が提案されています。
ただし、これらのメソッドを実装するには、再サンプリングを実行し、モデルの構造やパフォーマンスの改善、分類子のしきい値の最適化が必要です。
2種類の仮説テストを使用して、新しい意思決定アプローチを提案します。
この方法は、2つのクラス分布の重複領域に属する曖昧なデータと、トレーニングデータ分布に含まれていない分散型データを検出することができます。
さらに、訓練されたモデルを介して得られたトレーニングデータから導出された特徴値の経験的分布を使用して、不確実性を定量化します。
分類のしきい値は、$ \ alpha $ -quantileおよび($ 1- \ alpha $) – 分位によって決定されます。

要約(オリジナル)

Binary classification is a task that involves the classification of data into one of two distinct classes. It is widely utilized in various fields. However, conventional classifiers tend to make overconfident predictions for data that belong to overlapping regions of the two class distributions or for data outside the distributions (out-of-distribution data). Therefore, conventional classifiers should not be applied in high-risk fields where classification results can have significant consequences. In order to address this issue, it is necessary to quantify uncertainty and adopt decision-making approaches that take it into account. Many methods have been proposed for this purpose; however, implementing these methods often requires performing resampling, improving the structure or performance of models, and optimizing the thresholds of classifiers. We propose a new decision-making approach using two types of hypothesis testing. This method is capable of detecting ambiguous data that belong to the overlapping regions of two class distributions, as well as out-of-distribution data that are not included in the training data distribution. In addition, we quantify uncertainty using the empirical distribution of feature values derived from the training data obtained through the trained model. The classification threshold is determined by the $\alpha$-quantile and ($1-\alpha$)-quantile, where the significance level $\alpha$ is set according to each specific situation.

arxiv情報

著者 Shoma Yokura,Akihisa Ichiki
発行日 2025-02-12 17:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A method for classification of data with uncertainty using hypothesis testing はコメントを受け付けていません

Scalable Bilevel Loss Balancing for Multi-Task Learning

要約

マルチタスク学習(MTL)は、複数のタスクを同時に学習する能力のために広く採用されています。
既存の勾配操作方法は、多くの場合、単純なスカラリゼーションベースのアプローチよりもバランスのとれたソリューションを生成しますが、通常、時間とメモリの両方で$ \ mathcal {o}(k)$の重要な計算オーバーヘッドが発生します。

このホワイトペーパーでは、MTLのシンプルでスケーラブルな損失バランスアプローチであるBilb4mtlを提案します。
私たちの方法には、3つの重要なコンポーネントが組み込まれています。(i)初期損失正規化、(ii)バイレベル損失バランス定式化、および(iii)$ \ mathcal {o}(1)$の時間と$の時間と$の時間と$の$の1次アルゴリズムをスケーリング可能な1次アルゴリズム
メモリ。
理論的には、bilb4mtlは、バイレベル損失のバランスバランス問題の固定点だけでなく、$ \ epsilon $ ccurateパレートの静止条件下でのすべての$ k $損失関数の固定点に収束を保証することを証明します。
多様なマルチタスクデータセットに関する広範な実験は、BILB4MTLが精度と効率の両方で最先端のパフォーマンスを達成することを示しています。
コードはhttps://github.com/optmn-lab/-bilb4mtlで入手できます。

要約(オリジナル)

Multi-task learning (MTL) has been widely adopted for its ability to simultaneously learn multiple tasks. While existing gradient manipulation methods often yield more balanced solutions than simple scalarization-based approaches, they typically incur a significant computational overhead of $\mathcal{O}(K)$ in both time and memory, where $K$ is the number of tasks. In this paper, we propose BiLB4MTL, a simple and scalable loss balancing approach for MTL, formulated from a novel bilevel optimization perspective. Our method incorporates three key components: (i) an initial loss normalization, (ii) a bilevel loss-balancing formulation, and (iii) a scalable first-order algorithm that requires only $\mathcal{O}(1)$ time and memory. Theoretically, we prove that BiLB4MTL guarantees convergence not only to a stationary point of the bilevel loss balancing problem but also to an $\epsilon$-accurate Pareto stationary point for all $K$ loss functions under mild conditions. Extensive experiments on diverse multi-task datasets demonstrate that BiLB4MTL achieves state-of-the-art performance in both accuracy and efficiency. Code is available at https://github.com/OptMN-Lab/-BiLB4MTL.

arxiv情報

著者 Peiyao Xiao,Chaosheng Dong,Shaofeng Zou,Kaiyi Ji
発行日 2025-02-12 17:18:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Scalable Bilevel Loss Balancing for Multi-Task Learning はコメントを受け付けていません

Topological Blindspots: Understanding and Extending Topological Deep Learning Through the Lens of Expressivity

要約

トポロジーディープラーニング(TDL)は、データのトポロジー構造を活用し、分子から3D形状までのトポロジオブジェクトでサポートされているデータから学習を促進しようとする急速に成長している分野です。
ほとんどのTDLアーキテクチャは、高次のメッセージパス(HOMP)のフレームワークの下で統合できます。
論文の最初の部分では、トポロジーの観点からHOMPの表現力を探求し、直径、方向性、平面性、相同性などの基本的なトポロジおよびメトリックの不変剤をキャプチャできないことを示しています。
さらに、グラフの持ち上げおよびプーリング方法を完全に活用することにおけるHOMPの制限を示します。
私たちの知る限り、これは\ emph {トポロジー}の視点からTDLの表現力を研究する最初の作業です。
ペーパーの第2部では、表現力豊かなGNNからインスピレーションを得る、マルチセラーネットワーク(MCN)とスケーラブルMCN(SMCN)の2つの新しいクラスのアーキテクチャを開発します。
MCNは完全な表現性に達する可能性がありますが、大規模なデータオブジェクトにスケーリングすることは、計算的に拡大する可能性があります。
よりスケーラブルな代替品として設計されたSMCNは、HOMPの表現力の制限の多くを依然として緩和しています。
最後に、複合体のトポロジカル特性を学習する能力に基づいてモデルを評価するための新しいベンチマークを作成します。
次に、これらのベンチマークと実際のグラフデータセットでSMCNを評価し、HOMPベースラインと表現力豊かなグラフ法の両方で改善を示し、トポロジー情報を表現的に活用する価値を強調します。
コードとデータはhttps://github.com/yoavgelberg/smcnで入手できます。

要約(オリジナル)

Topological deep learning (TDL) is a rapidly growing field that seeks to leverage topological structure in data and facilitate learning from data supported on topological objects, ranging from molecules to 3D shapes. Most TDL architectures can be unified under the framework of higher-order message-passing (HOMP), which generalizes graph message-passing to higher-order domains. In the first part of the paper, we explore HOMP’s expressive power from a topological perspective, demonstrating the framework’s inability to capture fundamental topological and metric invariants such as diameter, orientability, planarity, and homology. In addition, we demonstrate HOMP’s limitations in fully leveraging lifting and pooling methods on graphs. To the best of our knowledge, this is the first work to study the expressivity of TDL from a \emph{topological} perspective. In the second part of the paper, we develop two new classes of architectures — multi-cellular networks (MCN) and scalable MCN (SMCN) — which draw inspiration from expressive GNNs. MCN can reach full expressivity, but scaling it to large data objects can be computationally expansive. Designed as a more scalable alternative, SMCN still mitigates many of HOMP’s expressivity limitations. Finally, we create new benchmarks for evaluating models based on their ability to learn topological properties of complexes. We then evaluate SMCN on these benchmarks and on real-world graph datasets, demonstrating improvements over both HOMP baselines and expressive graph methods, highlighting the value of expressively leveraging topological information. Code and data are available at https://github.com/yoavgelberg/SMCN.

arxiv情報

著者 Yam Eitan,Yoav Gelberg,Guy Bar-Shalom,Fabrizio Frasca,Michael Bronstein,Haggai Maron
発行日 2025-02-12 17:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.AT, stat.ML | Topological Blindspots: Understanding and Extending Topological Deep Learning Through the Lens of Expressivity はコメントを受け付けていません

Oscillatory State-Space Models

要約

長いシーケンスで効率的に学習するために、線形振動状態空間モデル(Linoss)を提案します。
生物学的ニューラルネットワークの皮質ダイナミクスに触発された私たちは、強制高調波発振器のシステムに基づいて提案されたリノスモデルを基にしています。
高速連想並列スキャンを使用して時間の経過とともに統合された安定した離散化により、提案された状態空間モデルが得られます。
Linossは、非陰性の対角状態マトリックスのみを必要とする安定したダイナミクスを生成することを証明します。
これは、制限的なパラメーター化に大きく依存している多くの以前の状態空間モデルとはまったく対照的です。
さらに、Linossが普遍的であることを厳密に示しています。つまり、時間変化の機能間の連続的および因果関係者マッピングを望ましい精度に近似できることを示しています。
さらに、Linossの暗黙的に優れた明示的な離散化が、基礎となるダイナミクスの時間可逆性の対称性を完全に節約することを示します。
一緒に、これらの特性は、長距離相互作用の効率的なモデリングを可能にし、安定した正確な長距離予測を確保します。
最後に、ミッドレンジから非常に長距離分類と回帰までの幅広い時系列タスク、および長老の予測に及ぶ経験的な結果は、提案されたLinossモデルが常に最新の状態を上回っていることを示しています。
アートシーケンスモデル。
特に、Linossは、長さ50Kのシーケンスを備えたシーケンスモデリングタスクで、Mambaをほぼ2倍、LRUを2.5倍上回ることです。

要約(オリジナル)

We propose Linear Oscillatory State-Space models (LinOSS) for efficiently learning on long sequences. Inspired by cortical dynamics of biological neural networks, we base our proposed LinOSS model on a system of forced harmonic oscillators. A stable discretization, integrated over time using fast associative parallel scans, yields the proposed state-space model. We prove that LinOSS produces stable dynamics only requiring nonnegative diagonal state matrix. This is in stark contrast to many previous state-space models relying heavily on restrictive parameterizations. Moreover, we rigorously show that LinOSS is universal, i.e., it can approximate any continuous and causal operator mapping between time-varying functions, to desired accuracy. In addition, we show that an implicit-explicit discretization of LinOSS perfectly conserves the symmetry of time reversibility of the underlying dynamics. Together, these properties enable efficient modeling of long-range interactions, while ensuring stable and accurate long-horizon forecasting. Finally, our empirical results, spanning a wide range of time-series tasks from mid-range to very long-range classification and regression, as well as long-horizon forecasting, demonstrate that our proposed LinOSS model consistently outperforms state-of-the-art sequence models. Notably, LinOSS outperforms Mamba by nearly 2x and LRU by 2.5x on a sequence modeling task with sequences of length 50k.

arxiv情報

著者 T. Konstantin Rusch,Daniela Rus
発行日 2025-02-12 17:29:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE | Oscillatory State-Space Models はコメントを受け付けていません

Toward Universal Laws of Outlier Propagation

要約

アルゴリズム情報理論(AIT)は、いわゆるランダム性欠乏の観点から外れ値を定量化する原則的な方法を認めていると主張します。
因果ベイジアンネットワークによって生成される確率分布については、関節状態のランダム性欠乏が、メカニズムの原則の独立性を条件として、各因果メカニズムのランダム性欠陥に分解することを示します。
したがって、異常な関節観測は、それらの根本原因、つまり異常に動作するメカニズムに定量的に起因する可能性があります。
ランダム性保存のレビンの法則の延長として、メカニズムの独立性がもたらされると、弱い外れ値が強力なものを引き起こすことができないことを示しています。
これらの情報理論法が、既存のスコアに関して定義された外れ値の動作をよりよく理解する方法を示します。

要約(オリジナル)

We argue that Algorithmic Information Theory (AIT) admits a principled way to quantify outliers in terms of so-called randomness deficiency. For the probability distribution generated by a causal Bayesian network, we show that the randomness deficiency of the joint state decomposes into randomness deficiencies of each causal mechanism, subject to the Independence of Mechanisms Principle. Accordingly, anomalous joint observations can be quantitatively attributed to their root causes, i.e., the mechanisms that behaved anomalously. As an extension of Levin’s law of randomness conservation, we show that weak outliers cannot cause strong ones when Independence of Mechanisms holds. We show how these information theoretic laws provide a better understanding of the behaviour of outliers defined with respect to existing scores.

arxiv情報

著者 Yuhao Wang,Aram Ebtekar,Dominik Janzing
発行日 2025-02-12 17:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Toward Universal Laws of Outlier Propagation はコメントを受け付けていません

Enhancing Diffusion Models Efficiency by Disentangling Total-Variance and Signal-to-Noise Ratio

要約

拡散モデルの長いサンプリング時間は、重要なボトルネックのままであり、拡散時間ステップの数を減らすことで緩和できます。
ただし、ステップが少ないサンプルの品質は、ノイズスケジュール、つまり、ノイズが導入され、各ステップで信号が低下する特定の方法に大きく依存します。
以前の作業は、元の分散と分散抽出スケジュールを改善しましたが、これらのアプローチ$ \ textit {受動的に} $は、それを直接制御することなく、全体の分散を調整します。
この作業では、テレビとSNRを独立して制御できる新しいトータルバリケーション/シグナルからノイズへのレイティオ(TV/SNR)フレームワークを提案します。
私たちのアプローチは、テレビが指数関数的に爆発するさまざまな既存のスケジュールが、同じSNRスケジュールを維持しながら一定のテレビスケジュールを設定することにより、$ \ textit {改良} $になる可能性があることを明らかにしています。
さらに、最適な輸送フローのSNRスケジュールを一致させると、分子構造生成のパフォーマンスが大幅に向上し、安定した分子のステップ生成がほとんど達成されません。
同様の傾向が画像生成で観察され、均一な拡散時間グリッドを備えたアプローチは、高度にカスタマイズされたEDMサンプラーと同等に機能します。

要約(オリジナル)

The long sampling time of diffusion models remains a significant bottleneck, which can be mitigated by reducing the number of diffusion time steps. However, the quality of samples with fewer steps is highly dependent on the noise schedule, i.e., the specific manner in which noise is introduced and the signal is reduced at each step. Although prior work has improved upon the original variance-preserving and variance-exploding schedules, these approaches $\textit{passively}$ adjust the total variance, without direct control over it. In this work, we propose a novel total-variance/signal-to-noise-ratio disentangled (TV/SNR) framework, where TV and SNR can be controlled independently. Our approach reveals that different existing schedules, where the TV explodes exponentially, can be $\textit{improved}$ by setting a constant TV schedule while preserving the same SNR schedule. Furthermore, generalizing the SNR schedule of the optimal transport flow matching significantly improves the performance in molecular structure generation, achieving few step generation of stable molecules. A similar tendency is observed in image generation, where our approach with a uniform diffusion time grid performs comparably to the highly tailored EDM sampler.

arxiv情報

著者 Khaled Kahouli,Winfried Ripken,Stefan Gugler,Oliver T. Unke,Klaus-Robert Müller,Shinichi Nakajima
発行日 2025-02-12 17:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Enhancing Diffusion Models Efficiency by Disentangling Total-Variance and Signal-to-Noise Ratio はコメントを受け付けていません

Two-stage hybrid models for enhancing forecasting accuracy on heterogeneous time series

要約

シリーズごとの方法で構築されたローカルモデルと比較して、グローバルモデルは時系列間で関連情報を活用して、予測パフォーマンスと一般化能力が向上します。
一連の時系列にグローバルモデルを構築することは、時系列予測の分野で主流になりつつあります。
ただし、不均一なデータを扱う際には、グローバルモデルの利点が常に実現されるとは限りません。
モデルの複雑さを高めることで不均一なデータセットに適応できますが、グローバルモデルの適用に課題をもたらす有限サンプルサイズのため、モデルを無限に複雑にすることはできません。
さらに、時系列のデータが均一か不均一であるかを判断することは、実際には曖昧になる可能性があります。
これらの研究ギャップに対処するために、このペーパーでは、データの不均一性は使用されるグローバルモデルによって定義されるべきであり、各シリーズでは、グローバルモデルによってモデル化されていない部分は不均一性を表しています。
さらに、2段階のハイブリッドモデルを提案します。これには、不均一なパターンを識別およびモデル化するための第2段階が含まれます。
この第2段階では、異質性に基づいて分割されたさまざまなドメインにわたって、すべてのローカルモデルまたはサブグローバルモデルのいずれかを推定できます。
4つのオープンデータセットでの実験により、提案された方法が5つの既存のモデルを大幅に上回ることが明らかになり、異種データセット上のグローバルモデルの可能性を完全に解き放つことに貢献しています。

要約(オリジナル)

Compared to local models built in a series-by-series manner, global models leverage relevant information across time series, resulting in improved forecasting performance and generalization capacity. Constructing global models on a set of time series is becoming mainstream in the field of time series forecasting. However, the advantages of global models may not always be realized when dealing with heterogeneous data. While they can adapt to heterogeneous datasets by increasing the model complexity, the model cannot be infinitely complex due to the finite sample size, which poses challenges for the application of global models. Additionally, determining whether the time series data is homogeneous or heterogeneous can be ambiguous in practice. To address these research gaps, this paper argues that the heterogeneity of the data should be defined by the global model used, and for each series, the portion not modelled by the global model represents heterogeneity. It further proposes two-stage hybrid models, which include a second stage to identify and model heterogeneous patterns. In this second stage, we can estimate either all local models or sub-global models across different domains divided based on heterogeneity. Experiments on four open datasets reveal that the proposed methods significantly outperform five existing models, indicating they contribute to fully unleash the potential of global models on heterogeneous datasets.

arxiv情報

著者 Junru Ren,Shaomin Wu
発行日 2025-02-12 17:39:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Two-stage hybrid models for enhancing forecasting accuracy on heterogeneous time series はコメントを受け付けていません

An Explainable Pipeline for Machine Learning with Functional Data

要約

機械学習(ML)モデルは、予測の目的でアプリケーションで成功を示していますが、一部のモデルのアルゴリズムの複雑さにより、解釈が困難になります。
これらの「ブラックボックス」モデルに関する洞察を提供する方法が提案されていますが、モデル入力が機能データである場合、監視されたMLに焦点を当てた研究はほとんどありません。
この作業では、機能データ入力を使用して予測を行う目的を持つ高感度スペースからの2つのアプリケーションを検討します。
1つのアプリケーションは、材料の種類を分類して、材料のハイパースペクトルコンピューター断層撮影スキャンを与えられた爆発物を特定することを目的としています。
他のアプリケーションでは、ラマン分光法で抽出されたカラーシグネチャを使用して、インクジェット印刷ドキュメントをソースプリンターに接続するという法医学科学タスクを考慮します。
これらのデータを分析するための本能的なルートは、分類のためのデータ駆動型MLモデルですが、アプリケーションの結果が高いため、分析のデータの性質を曖昧にしないように適切に説明することが重要であると主張します。
誤ったパターン。
そのため、(1)機能データの垂直的および水平方向の変動を説明する機能データを使用してMLモデルをトレーニングするための説明可能な弾性形状分析(VEESA)パイプラインのさまざまな重要性を提案し、(2)元のデータ空間で説明を提供します
モデルが機能データの変動を使用する方法の予測のために。
パイプラインは、弾性機能の主成分分析(EFPCA)を使用して、非相関モデル入力と順列機能の重要性(PFI)を生成して、予測に重要な主要成分を特定します。
重要な主成分によってキャプチャされた変動性は、元のデータ空間を視覚化しました。
最終的に、Veesaパイプラインの自然な拡張に関するアイデアと将来の研究のための課題について説明します。

要約(オリジナル)

Machine learning (ML) models have shown success in applications with an objective of prediction, but the algorithmic complexity of some models makes them difficult to interpret. Methods have been proposed to provide insight into these ‘black-box’ models, but there is little research that focuses on supervised ML when the model inputs are functional data. In this work, we consider two applications from high-consequence spaces with objectives of making predictions using functional data inputs. One application aims to classify material types to identify explosive materials given hyperspectral computed tomography scans of the materials. The other application considers the forensics science task of connecting an inkjet printed document to the source printer using color signatures extracted by Raman spectroscopy. An instinctive route to consider for analyzing these data is a data driven ML model for classification, but due to the high consequence nature of the applications, we argue it is important to appropriately account for the nature of the data in the analysis to not obscure or misrepresent patterns. As such, we propose the Variable importance Explainable Elastic Shape Analysis (VEESA) pipeline for training ML models with functional data that (1) accounts for the vertical and horizontal variability in the functional data and (2) provides an explanation in the original data space of how the model uses variability in the functional data for prediction. The pipeline makes use of elastic functional principal components analysis (efPCA) to generate uncorrelated model inputs and permutation feature importance (PFI) to identify the principal components important for prediction. The variability captured by the important principal components in visualized the original data space. We ultimately discuss ideas for natural extensions of the VEESA pipeline and challenges for future research.

arxiv情報

著者 Katherine Goode,J. Derek Tucker,Daniel Ries,Heike Hofmann
発行日 2025-02-12 17:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | An Explainable Pipeline for Machine Learning with Functional Data はコメントを受け付けていません

chebgreen: Learning and Interpolating Continuous Empirical Green’s Functions from Data

要約

この作業では、メッシュに依存しないデータ駆動型ライブラリであるChebgreenを提示し、関連するコントロールパラメーターを所有し、その統治部分微分方程式を持っている1次元システムを数学的にモデル化します。
提案された方法は、関連する、しかし隠された境界値の問題に対する経験的グリーンの関数を、その後、チェビシェフベースで二変量表現を構築する合理的なニューラルネットワークの形で学習します。
適切なライブラリ内の左右の特異機能を補間することにより、目に見えない制御パラメーター値でグリーンの関数を明らかにし、準単位のマニホールド上のポイントとして表現され、関連する特異値はラグランジュ多項式と補間されます。

要約(オリジナル)

In this work, we present a mesh-independent, data-driven library, chebgreen, to mathematically model one-dimensional systems, possessing an associated control parameter, and whose governing partial differential equation is unknown. The proposed method learns an Empirical Green’s Function for the associated, but hidden, boundary value problem, in the form of a Rational Neural Network from which we subsequently construct a bivariate representation in a Chebyshev basis. We uncover the Green’s function, at an unseen control parameter value, by interpolating the left and right singular functions within a suitable library, expressed as points on a manifold of Quasimatrices, while the associated singular values are interpolated with Lagrange polynomials.

arxiv情報

著者 Harshwardhan Praveen,Jacob Brown,Christopher Earls
発行日 2025-02-12 17:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA | chebgreen: Learning and Interpolating Continuous Empirical Green’s Functions from Data はコメントを受け付けていません

Scalable Thermodynamic Second-order Optimization

要約

多くのハードウェア提案は、AIワークロードの推論を加速することを目的としています。
AIモデルの迅速なトレーニングの大きな社会的影響にもかかわらず、トレーニングのハードウェア加速にはあまり注意が払われていません。
熱力学的コンピューターなどの物理ベースのコンピューターは、AIトレーニングアルゴリズムで重要なプリミティブを解く効率的な手段を提供します。
通常、デジタルハードウェアの計算上外れ(たとえば、高価なマトリックスの反転による)のオプティマイザーは、物理ベースのハードウェアでロック解除できます。
この作業では、熱力学コンピューターを使用して、Kronecker-Factored近似曲率(K-FAC)と呼ばれる一般的な2次オプティマイザーを加速するためのスケーラブルなアルゴリズムを提案します。
漸近の複雑さ分析は、アルゴリズムが$ n $、レイヤーあたりのニューロンの数が増加すると、アルゴリズムを増やすことを予測しています。
数値実験は、重要な量子化ノイズの下でも、二次最適化の利点を保存できることを示しています。
最後に、現実的なハードウェアの特性に基づいて、大規模なビジョンとグラフの問題のかなりのスピードアップを予測します。

要約(オリジナル)

Many hardware proposals have aimed to accelerate inference in AI workloads. Less attention has been paid to hardware acceleration of training, despite the enormous societal impact of rapid training of AI models. Physics-based computers, such as thermodynamic computers, offer an efficient means to solve key primitives in AI training algorithms. Optimizers that normally would be computationally out-of-reach (e.g., due to expensive matrix inversions) on digital hardware could be unlocked with physics-based hardware. In this work, we propose a scalable algorithm for employing thermodynamic computers to accelerate a popular second-order optimizer called Kronecker-factored approximate curvature (K-FAC). Our asymptotic complexity analysis predicts increasing advantage with our algorithm as $n$, the number of neurons per layer, increases. Numerical experiments show that even under significant quantization noise, the benefits of second-order optimization can be preserved. Finally, we predict substantial speedups for large-scale vision and graph problems based on realistic hardware characteristics.

arxiv情報

著者 Kaelan Donatella,Samuel Duffield,Denis Melanson,Maxwell Aifer,Phoebe Klett,Rajath Salegame,Zach Belateche,Gavin Crooks,Antonio J. Martinez,Patrick J. Coles
発行日 2025-02-12 17:44:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.LG | Scalable Thermodynamic Second-order Optimization はコメントを受け付けていません