Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens

要約

大規模な言語モデルとそのマルチモーダル拡張の最近の進歩は、自己回帰の次のトークン予測を通じて、生成と理解の統一の有効性を実証しています。
ただし、科学のAIにおける3D構造生成と理解({3D GU})の重要な役割にもかかわらず、これらのタスクは大部分が独立して進化しており、自己回帰方法は露出度の低いままです。
このギャップを埋めるために、自己回帰予測を介して{3D GU}タスクをシームレスに統合する統合されたフレームワークであるUni-3DARを導入します。
その中心で、Uni-3DARは、3D構造の固有のスパース性を活用して、オクトリーを使用して3D空間を圧縮する新しい階層トークン化を採用しています。
次に、微細な3D構造の原子タイプや正確な空間座標などの重要な属性をキャプチャして、細粒の構造の詳細に追加のトークン化を適用します。
さらに、効率と有効性を高めるための2つの最適化を提案します。
1つ目は、2レベルのサブツリー圧縮戦略で、Octreeトークンシーケンスを最大8倍削減します。
2つ目は、動的に変化するトークン位置に合わせて調整されたマスクされた次のトークン予測メカニズムで、モデルのパフォーマンスが大幅に向上します。
これらの戦略を組み合わせることにより、UNI-3DARは、単一の自己回帰フレームワーク内で多様な{3D GU}タスクを正常に統合します。
分子、タンパク質、ポリマー、結晶を含む複数の顕微鏡{3D GU}タスクにわたる広範な実験により、その有効性と汎用性が検証されます。
特に、UNI-3DARは、以前の最先端の拡散モデルをかなりのマージンで上回り、最大256%の相対的な改善を達成しながら、最大21.8倍の速度を速くします。
このコードは、https://github.com/dptech-corp/uni-3darで公開されています。

要約(オリジナル)

Recent advancements in large language models and their multi-modal extensions have demonstrated the effectiveness of unifying generation and understanding through autoregressive next-token prediction. However, despite the critical role of 3D structural generation and understanding ({3D GU}) in AI for science, these tasks have largely evolved independently, with autoregressive methods remaining underexplored. To bridge this gap, we introduce Uni-3DAR, a unified framework that seamlessly integrates {3D GU} tasks via autoregressive prediction. At its core, Uni-3DAR employs a novel hierarchical tokenization that compresses 3D space using an octree, leveraging the inherent sparsity of 3D structures. It then applies an additional tokenization for fine-grained structural details, capturing key attributes such as atom types and precise spatial coordinates in microscopic 3D structures. We further propose two optimizations to enhance efficiency and effectiveness. The first is a two-level subtree compression strategy, which reduces the octree token sequence by up to 8x. The second is a masked next-token prediction mechanism tailored for dynamically varying token positions, significantly boosting model performance. By combining these strategies, Uni-3DAR successfully unifies diverse {3D GU} tasks within a single autoregressive framework. Extensive experiments across multiple microscopic {3D GU} tasks, including molecules, proteins, polymers, and crystals, validate its effectiveness and versatility. Notably, Uni-3DAR surpasses previous state-of-the-art diffusion models by a substantial margin, achieving up to 256\% relative improvement while delivering inference speeds up to 21.8x faster. The code is publicly available at https://github.com/dptech-corp/Uni-3DAR.

arxiv情報

著者 Shuqi Lu,Haowei Lin,Lin Yao,Zhifeng Gao,Xiaohong Ji,Weinan E,Linfeng Zhang,Guolin Ke
発行日 2025-03-20 16:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, q-bio.BM | Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens はコメントを受け付けていません

Explainable Graph-theoretical Machine Learning: with Application to Alzheimer’s Disease Prediction

要約

アルツハイマー病(AD)は世界中の5,000万人に影響を及ぼし、2050年までに1億5200万人を圧倒すると予測されています。ADは、代謝脳のつながりの混乱による認知機能低下を特徴としています。
したがって、代謝脳ネットワークの障害の早期かつ正確な検出は、広告管理にとって重要です。
そのような障害を特定する主なものは、FDG-PETデータです。
進歩にもかかわらず、FDG-PETデータを使用したほとんどのグラフベースの研究は、グループレベルの分析またはしきい値に依存しています。
しかし、グループレベルの分析は、個人の違いをベールする可能性があり、しきい値は弱いが生物学的に重要な脳のつながりを見落とす可能性があります。
さらに、機械学習ベースのAD予測は、主に疾患の状態などの単変量の結果に焦点を当てています。
ここでは、説明可能なグラフ理論的機械学習(XGML)を紹介します。これは、カーネル密度推定と動的時間歪みを採用したフレームワークで、ペアワイズ脳領域間の距離をキャプチャし、多変量AD関連の結果を最も予測するサブグラフを特定する個々の代謝脳グラフを構築します。
Alzheimer’s Disease Neuroimaging InitiativeのFDG-PETデータを使用して、XGMLは代謝脳グラフを構築し、新しい被験者の8つのAD関連認知スコアを予測するサブグラフを発見します。
XGMLは、特にCDRSB($ r = 0.74 $)、ADAS11($ r = 0.73 $)、ADAS13($ r = 0.71 $)などの学習、メモリ、言語、実践、および方向を測定するスコアを予測するために、堅牢なパフォーマンスを示します。
さらに、XGMLはキーエッジを共同で発表しますが、いくつかの広告関連の結果を差別的に予測します。
それらは、全体的な認知機能低下を評価するための潜在的なネットワークバイオマーカーとして機能する可能性があります。
一緒に、バイオマーカーの発見と疾患の予測におけるグラフ理論的機械学習の約束と、ADの根底にあるネットワーク神経メカニズムの理解を深める可能性を示します。

要約(オリジナル)

Alzheimer’s disease (AD) affects 50 million people worldwide and is projected to overwhelm 152 million by 2050. AD is characterized by cognitive decline due partly to disruptions in metabolic brain connectivity. Thus, early and accurate detection of metabolic brain network impairments is crucial for AD management. Chief to identifying such impairments is FDG-PET data. Despite advancements, most graph-based studies using FDG-PET data rely on group-level analysis or thresholding. Yet, group-level analysis can veil individual differences and thresholding may overlook weaker but biologically critical brain connections. Additionally, machine learning-based AD prediction largely focuses on univariate outcomes, such as disease status. Here, we introduce explainable graph-theoretical machine learning (XGML), a framework employing kernel density estimation and dynamic time warping to construct individual metabolic brain graphs that capture the distance between pair-wise brain regions and identify subgraphs most predictive of multivariate AD-related outcomes. Using FDG-PET data from the Alzheimer’s Disease Neuroimaging Initiative, XGML builds metabolic brain graphs and uncovers subgraphs predictive of eight AD-related cognitive scores in new subjects. XGML shows robust performance, particularly for predicting scores measuring learning, memory, language, praxis, and orientation, such as CDRSB ($r = 0.74$), ADAS11 ($r = 0.73$), and ADAS13 ($r = 0.71$). Moreover, XGML unveils key edges jointly but differentially predictive of several AD-related outcomes; they may serve as potential network biomarkers for assessing overall cognitive decline. Together, we show the promise of graph-theoretical machine learning in biomarker discovery and disease prediction and its potential to improve our understanding of network neural mechanisms underlying AD.

arxiv情報

著者 Narmina Baghirova,Duy-Thanh Vũ,Duy-Cat Can,Christelle Schneuwly Diaz,Julien Bodlet,Guillaume Blanc,Georgi Hrusanov,Bernard Ries,Oliver Y. Chén
発行日 2025-03-20 16:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Explainable Graph-theoretical Machine Learning: with Application to Alzheimer’s Disease Prediction はコメントを受け付けていません

GenEFT: Understanding Statics and Dynamics of Model Generalization via Effective Theory

要約

Geneft:Neural Networkの一般化の静的とダイナミクスに光を放つための効果的な理論フレームワークを提示し、グラフ学習の例で説明します。
最初に、データサイズが増加するにつれて一般化フェーズ遷移を調査し、実験結果と情報理論ベースの近似と比較します。
Decoderが弱すぎたり強すぎたりしないGoldilocksゾーンで一般化を見つけます。
次に、表現学習のダイナミクスの効果的な理論を紹介します。ここでは、潜在的な空間表現が相互作用する粒子(レポン)としてモデル化され、エンコーダーとデコーダーの学習レートがスキャンされるため、一般化と過剰適合との間の実験的に観察された位相遷移を説明します。
これは、理論的予測と機械学習における実践の間のギャップを埋めるための物理学に触発された効果的な理論の力を強調しています。

要約(オリジナル)

We present GenEFT: an effective theory framework for shedding light on the statics and dynamics of neural network generalization, and illustrate it with graph learning examples. We first investigate the generalization phase transition as data size increases, comparing experimental results with information-theory-based approximations. We find generalization in a Goldilocks zone where the decoder is neither too weak nor too powerful. We then introduce an effective theory for the dynamics of representation learning, where latent-space representations are modeled as interacting particles (repons), and find that it explains our experimentally observed phase transition between generalization and overfitting as encoder and decoder learning rates are scanned. This highlights the power of physics-inspired effective theories for bridging the gap between theoretical predictions and practice in machine learning.

arxiv情報

著者 David D. Baek,Ziming Liu,Max Tegmark
発行日 2025-03-20 16:31:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | GenEFT: Understanding Statics and Dynamics of Model Generalization via Effective Theory はコメントを受け付けていません

Active Learning For Repairable Hardware Systems With Partial Coverage

要約

特に固定予算と最小限のメンテナンスサイクルによって制約されている場合、フィールドデータを使用して信頼性特性を推測するための最適な診断テストとハードウェアシステムインスタンスを特定することは困難です。
Active Learning(AL)は、機械学習/深い学習タスクにおける限られたデータと予算の制約を伴うパラメーター推論の有望を示しています。
ただし、ALの信頼性モデルパラメーターの推論の場合、修理可能なハードウェアシステムには既知のままです。
ハードウェアの老化を考慮する特殊なAL取得関数(AFS)と、ハードウェアシステムが特定の診断テスト中に部分的なテストのみを受ける可能性がある複数のサブシステムで構成されていることを考慮しています。
これらの課題に対処するために、診断カバレッジ(DC)、フィッシャー情報マトリックス(FIM)、および診断テストの予算を組み込んだリラックスした混合整数セミデフィニットプログラム(MISDP)AL AFを提案します。
さらに、2つの診断テストシナリオに焦点を当てた経験ベースのシミュレーション実験を設計します。(1)サブシステムカバレッジが重複するハードウェアシステムの部分テスト、および(2)1つの診断テストが別のサブシステムカバーを完全に包む部分テスト。
文献(エントロピー)で最も広く使用されているAl AFに対する提案されたアプローチと、信頼性モデルパラメーターの推論に合わせたいくつかの直感的なAL AFを評価します。
提案されたAFは、フリードマン仮説検査を使用して0.05アルファレベルで統計的有意性を計算した絶対的な合計イベントエラー(ATEER)および平均四角誤差(MSE)曲線の曲線(AUC)の下の面積(AUC)に関して、6,000の実験的構成にわたる代替AFの間で平均して最高にランク付けされました。

要約(オリジナル)

Identifying the optimal diagnostic test and hardware system instance to infer reliability characteristics using field data is challenging, especially when constrained by fixed budgets and minimal maintenance cycles. Active Learning (AL) has shown promise for parameter inference with limited data and budget constraints in machine learning/deep learning tasks. However, AL for reliability model parameter inference remains underexplored for repairable hardware systems. It requires specialized AL Acquisition Functions (AFs) that consider hardware aging and the fact that a hardware system consists of multiple sub-systems, which may undergo only partial testing during a given diagnostic test. To address these challenges, we propose a relaxed Mixed Integer Semidefinite Program (MISDP) AL AF that incorporates Diagnostic Coverage (DC), Fisher Information Matrices (FIMs), and diagnostic testing budgets. Furthermore, we design empirical-based simulation experiments focusing on two diagnostic testing scenarios: (1) partial tests of a hardware system with overlapping subsystem coverage, and (2) partial tests where one diagnostic test fully subsumes the subsystem coverage of another. We evaluate our proposed approach against the most widely used AL AF in the literature (entropy), as well as several intuitive AL AFs tailored for reliability model parameter inference. Our proposed AF ranked best on average among the alternative AFs across 6,000 experimental configurations, with respect to Area Under the Curve (AUC) of the Absolute Total Expected Event Error (ATEER) and Mean Squared Error (MSE) curves, with statistical significance calculated at a 0.05 alpha level using a Friedman hypothesis test.

arxiv情報

著者 Michael Potter,Beyza Kalkanlı,Deniz Erdoğmuş,Michael Everett
発行日 2025-03-20 16:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP | Active Learning For Repairable Hardware Systems With Partial Coverage はコメントを受け付けていません

On the Cone Effect in the Learning Dynamics

要約

ニューラルネットワークの学習ダイナミクスを理解することは、深い学習コミュニティの中心的なトピックです。
このホワイトペーパーでは、実証的な視点を取り、現実世界の設定でのニューラルネットワークの学習ダイナミクスを研究します。
具体的には、トレーニング中に経験的神経接線カーネル(ENTK)の進化プロセスを調査します。
私たちの重要な調査結果は、2相学習プロセスを明らかにしています。i)フェーズIでは、ENTKは大幅に進化し、豊富なレジームをシグナル化し、II)フェーズIIでは、ENTKは進化し続けますが、狭い空間、コーン効果と呼ばれる現象に制約されています。
この2相フレームワークは、フォートらによって提案された仮説に基づいています。
(2020)、しかし、フェーズIIのコーン効果を独自に特定し、完全に線形化されたトレーニングよりも大きなパフォーマンスの利点を示しています。

要約(オリジナル)

Understanding the learning dynamics of neural networks is a central topic in the deep learning community. In this paper, we take an empirical perspective to study the learning dynamics of neural networks in real-world settings. Specifically, we investigate the evolution process of the empirical Neural Tangent Kernel (eNTK) during training. Our key findings reveal a two-phase learning process: i) in Phase I, the eNTK evolves significantly, signaling the rich regime, and ii) in Phase II, the eNTK keeps evolving but is constrained in a narrow space, a phenomenon we term the cone effect. This two-phase framework builds on the hypothesis proposed by Fort et al. (2020), but we uniquely identify the cone effect in Phase II, demonstrating its significant performance advantages over fully linearized training.

arxiv情報

著者 Zhanpeng Zhou,Yongyi Yang,Jie Ren,Mahito Sugiyama,Junchi Yan
発行日 2025-03-20 16:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | On the Cone Effect in the Learning Dynamics はコメントを受け付けていません

NeuralFoil: An Airfoil Aerodynamics Analysis Tool Using Physics-Informed Machine Learning

要約

NeuralFoilは、Xfoilと同様の翼の迅速な空力分析のためのオープンソースPythonベースのツールです。
同等の精度を制御した後、Xfoil以上の8倍から1,000xの範囲のスピードアップが実証されます。
NeuralFoilは、以下を含む広範な入力空間で、グローバル量と局所量(リフト、ドラッグ、速度分布など)を計算します。
攻撃の360度の範囲。
Reynoldsは$ 10^2 $から$ 10^{10} $の数値です。
亜音速はトランスニック抗力上昇に流れます。
乱流パラメーターが変化します。
結果はXfoilの結果と密接に一致します。ドラッグの平均相対誤差は、単純なケースで0.37%であり、テストデータセットでは多数のストール後および移行性ケースで2.0%のままです。
NeuralFoilは、$ C^\ INFTY $ continuous Solutions、自動分化互換性、および非変換の問題なしに境界のある計算コストにより、勾配ベースの設計最適化を促進します。
ニューラルフォイルは、物理学に基づいた機械学習技術と分析モデルのハイブリッドです。
ここでは、物理情報には、モデルアーキテクチャに構造的に埋め込まれた対称性、ドメインの知識を使用した機能エンジニアリング、および既知の制限ケースへの外挿が保証されています。
また、この作業は、堅牢な設計最適化を可能にする代理モデルの不確実性定量化のための新しいアプローチを導入します。
この作業では、空気力学的制約と非エアロダイナミック制約の両方を含む実用的な翼設計最適化研究を含む、いくつかのケーススタディでニューラルフォイルの方法論とパフォーマンスについて説明します。
ここでは、NeuralFoilの最適化は、数秒以内にエキスパートが設計した翼とのパフォーマンスと形状がほぼ同じ翼を生成することができます。
これらの計算的に最適化された翼は、さらに専門家の洗練のための有用な出発点を提供します。

要約(オリジナル)

NeuralFoil is an open-source Python-based tool for rapid aerodynamics analysis of airfoils, similar in purpose to XFoil. Speedups ranging from 8x to 1,000x over XFoil are demonstrated, after controlling for equivalent accuracy. NeuralFoil computes both global and local quantities (lift, drag, velocity distribution, etc.) over a broad input space, including: an 18-dimensional space of airfoil shapes, possibly including control deflections; a 360 degree range of angles of attack; Reynolds numbers from $10^2$ to $10^{10}$; subsonic flows up to the transonic drag rise; and with varying turbulence parameters. Results match those of XFoil closely: the mean relative error of drag is 0.37% on simple cases, and remains as low as 2.0% on a test dataset with numerous post-stall and transitional cases. NeuralFoil facilitates gradient-based design optimization, due to its $C^\infty$-continuous solutions, automatic-differentiation-compatibility, and bounded computational cost without non-convergence issues. NeuralFoil is a hybrid of physics-informed machine learning techniques and analytical models. Here, physics information includes symmetries that are structurally embedded into the model architecture, feature engineering using domain knowledge, and guaranteed extrapolation to known limit cases. This work also introduces a new approach for surrogate model uncertainty quantification that enables robust design optimization. This work discusses the methodology and performance of NeuralFoil with several case studies, including a practical airfoil design optimization study including both aerodynamic and non-aerodynamic constraints. Here, NeuralFoil optimization is able to produce airfoils nearly identical in performance and shape to expert-designed airfoils within seconds; these computationally-optimized airfoils provide a useful starting point for further expert refinement.

arxiv情報

著者 Peter Sharpe,R. John Hansman
発行日 2025-03-20 16:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.flu-dyn | NeuralFoil: An Airfoil Aerodynamics Analysis Tool Using Physics-Informed Machine Learning はコメントを受け付けていません

Optimal Complexity in Byzantine-Robust Distributed Stochastic Optimization with Data Heterogeneity

要約

このホワイトペーパーでは、強く凸型と非凸確率的最適化の両方で、ビザンチンと頑丈な分布の一次確率的最適化方法の厳しい下限を確立します。
分散ノードに不均一なデータがある場合、収束誤差は2つのコンポーネントで構成されていることを明らかにします:非vanishingビザンチンエラーと消失最適化エラー。
ビザンチンのエラーと、任意に小さな最適化エラーを達成するために必要な確率勾配のオラクルのクエリの最小数の下限を確立します。
それにもかかわらず、確立された下限と既存の上限との間に重要な矛盾を特定します。
このギャップを埋めるために、ネステロフの加速と分散削減の技術を活用して、これらの下限と対数要因まで、これらの下限に合わせて、確立された下限が厳しいことを意味する、新しいビザンチンと堅牢な分布の確率的最適化方法を開発します。

要約(オリジナル)

In this paper, we establish tight lower bounds for Byzantine-robust distributed first-order stochastic optimization methods in both strongly convex and non-convex stochastic optimization. We reveal that when the distributed nodes have heterogeneous data, the convergence error comprises two components: a non-vanishing Byzantine error and a vanishing optimization error. We establish the lower bounds on the Byzantine error and on the minimum number of queries to a stochastic gradient oracle required to achieve an arbitrarily small optimization error. Nevertheless, we identify significant discrepancies between our established lower bounds and the existing upper bounds. To fill this gap, we leverage the techniques of Nesterov’s acceleration and variance reduction to develop novel Byzantine-robust distributed stochastic optimization methods that provably match these lower bounds, up to logarithmic factors, implying that our established lower bounds are tight.

arxiv情報

著者 Qiankun Shi,Jie Peng,Kun Yuan,Xiao Wang,Qing Ling
発行日 2025-03-20 16:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Optimal Complexity in Byzantine-Robust Distributed Stochastic Optimization with Data Heterogeneity はコメントを受け付けていません

Nonlinear action prediction models reveal multi-timescale locomotor control

要約

現実世界のタスクでのモデリングの動きは、基本的な科学的目標です。
ただし、実験室に制約のある設定で圧倒的にテストされている既存のモデルとその仮定が、現実の世界に一般化するかどうかは不明です。
たとえば、フット配置制御のデータ駆動型モデル – 安定した移動のための重要なアクション – 線形および単一のタイムスケールマッピングを想定しています。
非線形の足の配置予測モデルを開発し、GRUやトランスなどの柔軟な入力履歴依存性を備えたニューラルネットワークアーキテクチャ(ウォーキングとランニング、トレッドミルと地下、さまざまな地形)と入力モダリティ(複数の体の状態、視線)にわたって最適に機能し、従来のモデルを上回ることがわかります。
これらのモデルは、コンテキストおよびモダリティ依存のタイムスケールを明らかにします。複雑な地形での高速速度の予測に依存し、体状態の予測に先行する視線の予測、および全身状態予測は、マスに関連する中央の予測に先行します。
したがって、非線形アクション予測モデルは、実際の運動制御に関する定量化可能な洞察を提供し、他のアクション、コンテキスト、および集団に拡張できます。

要約(オリジナル)

Modeling movement in real-world tasks is a fundamental scientific goal. However, it is unclear whether existing models and their assumptions, overwhelmingly tested in laboratory-constrained settings, generalize to the real world. For example, data-driven models of foot placement control — a crucial action for stable locomotion — assume linear and single timescale mappings. We develop nonlinear foot placement prediction models, finding that neural network architectures with flexible input history-dependence like GRU and Transformer perform best across multiple contexts (walking and running, treadmill and overground, varying terrains) and input modalities (multiple body states, gaze), outperforming traditional models. These models reveal context- and modality-dependent timescales: there is more reliance on fast-timescale predictions in complex terrain, gaze predictions precede body state predictions, and full-body state predictions precede center-of-mass-relevant predictions. Thus, nonlinear action prediction models provide quantifiable insights into real-world motor control and can be extended to other actions, contexts, and populations.

arxiv情報

著者 Wei-Chen Wang,Antoine De Comite,Monica Daley,Alexandra Voloshina,Nidhi Seethapathi
発行日 2025-03-20 16:57:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Nonlinear action prediction models reveal multi-timescale locomotor control はコメントを受け付けていません

Quantum Algorithms for the Pathwise Lasso

要約

古典的なLARS(最小角度回帰)経路ごとのアルゴリズムに基づいて、$ \ ell_1 $ -PENALTYを備えた新しい量子高次元線形回帰アルゴリズムを提示します。
Lassoの利用可能な古典的なアルゴリズムと同様に、私たちの量子アルゴリズムは、ペナルティ用語が変化するにつれて完全な正則化パスを提供しますが、特定の条件下での反復ごとに2次速くなります。
各反復で結合時間を取得するために、d \ ‘urrおよびHoyer(arxiv’96)の単純な量子最小発見サブルーチンを使用することにより、機能$ d $の数の2次速度が可能です。
次に、この単純な量子アルゴリズムを改善し、ChenおよびDe Wolf(ICALP’23)からの近似量子最小発見サブルーチンを使用して、機能$ d $と観測数$ n $の数で2次速度を取得します。
そうするために、おおよその量子最小発見サブルーチンによって検索される結合時間をほぼ計算します。
もう1つの主な貢献として、KKT条件の近似バージョンと二重性ギャップを介して、LARSアルゴリズム(したがって量子アルゴリズム)がエラーに対して堅牢であることを証明します。
これは、結合時間がほぼ計算されている場合、ラッソコスト関数を小さなエラーまで最小限に抑えるパスを出力することを意味します。
さらに、観測がガウス分布からサンプリングされると、量子アルゴリズムの複雑さは$ n $に多分類的にのみ依存し、$ d $の2次改善を維持しながら、古典的なラースアルゴリズムよりも指数関数的に優れていることを示しています。
さらに、標準のLARSアルゴリズムから$ d $の線形スケーリングを提示するにもかかわらず、$ n $にポリロガリズム依存性を保持する量子アルゴリズムの定量化バージョンを提案します。
最後に、クラシックおよび量子ラッソアルゴリズムのクエリ下限を証明します。

要約(オリジナル)

We present a novel quantum high-dimensional linear regression algorithm with an $\ell_1$-penalty based on the classical LARS (Least Angle Regression) pathwise algorithm. Similarly to available classical algorithms for Lasso, our quantum algorithm provides the full regularisation path as the penalty term varies, but quadratically faster per iteration under specific conditions. A quadratic speedup on the number of features $d$ is possible by using the simple quantum minimum-finding subroutine from D\’urr and Hoyer (arXiv’96) in order to obtain the joining time at each iteration. We then improve upon this simple quantum algorithm and obtain a quadratic speedup both in the number of features $d$ and the number of observations $n$ by using the approximate quantum minimum-finding subroutine from Chen and de Wolf (ICALP’23). In order to do so, we approximately compute the joining times to be searched over by the approximate quantum minimum-finding subroutine. As another main contribution, we prove, via an approximate version of the KKT conditions and a duality gap, that the LARS algorithm (and therefore our quantum algorithm) is robust to errors. This means that it still outputs a path that minimises the Lasso cost function up to a small error if the joining times are only approximately computed. Furthermore, we show that, when the observations are sampled from a Gaussian distribution, our quantum algorithm’s complexity only depends polylogarithmically on $n$, exponentially better than the classical LARS algorithm, while keeping the quadratic improvement on $d$. Moreover, we propose a dequantised version of our quantum algorithm that also retains the polylogarithmic dependence on $n$, albeit presenting the linear scaling on $d$ from the standard LARS algorithm. Finally, we prove query lower bounds for classical and quantum Lasso algorithms.

arxiv情報

著者 Joao F. Doriguello,Debbie Lim,Chi Seng Pun,Patrick Rebentrost,Tushar Vaidya
発行日 2025-03-20 17:05:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, quant-ph, stat.ML | Quantum Algorithms for the Pathwise Lasso はコメントを受け付けていません

Lyra: An Efficient and Expressive Subquadratic Architecture for Modeling Biological Sequences

要約

畳み込みニューラルネットワークやトランスなどの深い学習アーキテクチャは、基礎とタスク固有のモデルのスケーリングによって推進される最近の進歩とともに、生物学的シーケンスモデリングに革命をもたらしました。
ただし、必要な計算リソースと大規模なデータセットは、生物学的コンテキストでの適用性を制限します。
配列と機能の関係を理解するためのエピスタシスの生物学的枠組みに基づいた、シーケンスモデリングのための準周囲アーキテクチャであるLyraを紹介します。
数学的には、状態空間モデルがグローバルなエピスタティック相互作用を効率的にキャプチャし、それらを局所的な関係をモデル化するための投影されたゲート畳み込みと組み合わせることを実証します。
Lyraは、タンパク質フィットネス景観予測、生物物理学的特性予測、生物物理学的特性予測(例:ペプチドタンパク領域機能)ペプチドエンジニアリングアプリケーションを含む多くの重要な領域で、100を超える広範囲の生物学的タスクでパフォーマンスを発揮し、多くの重要な領域で最先端の(SOTA)性能を達成していることを実証します。
これは、最近の生物学の基礎モデルと比較して、推論速度とパラメーターの減少(テストでは最大120,000倍)の幅広さを改善することで達成します。
Lyraを使用して、この研究のすべてのタスクを2時間以内に2時間以内にGPU以下でトレーニングおよび実行することができました。これは、SOTAパフォーマンスでの生物学的シーケンスモデリングへのアクセスを民主化し、多くの分野に潜在的に応用しました。

要約(オリジナル)

Deep learning architectures such as convolutional neural networks and Transformers have revolutionized biological sequence modeling, with recent advances driven by scaling up foundation and task-specific models. The computational resources and large datasets required, however, limit their applicability in biological contexts. We introduce Lyra, a subquadratic architecture for sequence modeling, grounded in the biological framework of epistasis for understanding sequence-to-function relationships. Mathematically, we demonstrate that state space models efficiently capture global epistatic interactions and combine them with projected gated convolutions for modeling local relationships. We demonstrate that Lyra is performant across over 100 wide-ranging biological tasks, achieving state-of-the-art (SOTA) performance in many key areas, including protein fitness landscape prediction, biophysical property prediction (e.g. disordered protein region functions) peptide engineering applications (e.g. antibody binding, cell-penetrating peptide prediction), RNA structure analysis, RNA function prediction, and CRISPR guide design. It achieves this with orders-of-magnitude improvements in inference speed and reduction in parameters (up to 120,000-fold in our tests) compared to recent biology foundation models. Using Lyra, we were able to train and run every task in this study on two or fewer GPUs in under two hours, democratizing access to biological sequence modeling at SOTA performance, with potential applications to many fields.

arxiv情報

著者 Krithik Ramesh,Sameed M. Siddiqui,Albert Gu,Michael D. Mitzenmacher,Pardis C. Sabeti
発行日 2025-03-20 17:09:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.GN | Lyra: An Efficient and Expressive Subquadratic Architecture for Modeling Biological Sequences はコメントを受け付けていません