HiQ-Lip: The First Quantum-Classical Hierarchical Method for Global Lipschitz Constant Estimation of ReLU Networks

要約

ニューラルネットワークのグローバルなリプシッツ定数を推定することは、それらの堅牢性と一般化能力を理解し、改善するために重要です。
ただし、正確な計算はNPハードであり、現在のセミデフィニットプログラミング(SDP)メソッドは、メモリの使用量や処理速度の低下などの課題に直面しています。
この論文では、\ TextBf {Hiq-Lip}を提案します。これは、コヒーレントISINGマシン(CIM)を活用してグローバルなリプシッツ定数を推定するハイブリッド量子古典的な階層方法です。
推定に取り組み、それを二次制約のないバイナリ最適化(QUBO)問題に変換し、マルチレベルのグラフの粗大化と改良戦略を実装して、現代の量子ハードウェアの制約に適応します。
完全に接続されたニューラルネットワークに関する実験的評価は、HIQ-LIPが最先端の方法に匹敵する推定値を提供するだけでなく、計算プロセスを大幅に加速することを示しています。
256の隠されたニューロンを備えた2層ニューラルネットワークを含む特定のテストでは、HIQ-LIPは解決速度を2倍にし、既存の最良の方法であるLipoptよりも正確な上限を提供します。
これらの調査結果は、ニューラルネットワークの堅牢性の推定を進める上で、小規模な量子デバイスの有望なユーティリティを強調しています。

要約(オリジナル)

Estimating the global Lipschitz constant of neural networks is crucial for understanding and improving their robustness and generalization capabilities. However, precise calculations are NP-hard, and current semidefinite programming (SDP) methods face challenges such as high memory usage and slow processing speeds. In this paper, we propose \textbf{HiQ-Lip}, a hybrid quantum-classical hierarchical method that leverages Coherent Ising Machines (CIMs) to estimate the global Lipschitz constant. We tackle the estimation by converting it into a Quadratic Unconstrained Binary Optimization (QUBO) problem and implement a multilevel graph coarsening and refinement strategy to adapt to the constraints of contemporary quantum hardware. Our experimental evaluations on fully connected neural networks demonstrate that HiQ-Lip not only provides estimates comparable to state-of-the-art methods but also significantly accelerates the computation process. In specific tests involving two-layer neural networks with 256 hidden neurons, HiQ-Lip doubles the solving speed and offers more accurate upper bounds than the existing best method, LiPopt. These findings highlight the promising utility of small-scale quantum devices in advancing the estimation of neural network robustness.

arxiv情報

著者 Haoqi He,Yan Xiao
発行日 2025-03-20 16:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, quant-ph | HiQ-Lip: The First Quantum-Classical Hierarchical Method for Global Lipschitz Constant Estimation of ReLU Networks はコメントを受け付けていません

Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds

要約

現代の具体的でないAIシステムのエキゾチックな特徴と互換性があり、哲学的精査に耐えることができる意識の概念を明確にすることは可能ですか?
そのような概念に準拠したエンティティには、主観的な時間と自己性がどのように現れるでしょうか?
これらの質問に答えようとすると、比phor的にさえ、意識の言語をブレークポイントに伸ばします。
最終的に、この試みは、仏教の意味で空虚のようなものを生み出し、主観性と自己性への二元論の傾向を損なうのに役立ちます。

要約(オリジナル)

Is it possible to articulate a conception of consciousness that is compatible with the exotic characteristics of contemporary, disembodied AI systems, and that can stand up to philosophical scrutiny? How would subjective time and selfhood show up for an entity that conformed to such a conception? Trying to answer these questions, even metaphorically, stretches the language of consciousness to breaking point. Ultimately, the attempt yields something like emptiness, in the Buddhist sense, and helps to undermine our dualistic inclinations towards subjectivity and selfhood.

arxiv情報

著者 Murray Shanahan
発行日 2025-03-20 17:05:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds はコメントを受け付けていません

Pareto Control Barrier Function for Inner Safe Set Maximization Under Input Constraints

要約

この記事では、入力制約の下で動的システムの内部セーフセットを最大化するために、パレート制御バリア関数(PCBF)アルゴリズムを紹介します。
従来の制御バリア関数(CBFS)は、安全なセット内でシステムの軌跡を維持することにより安全性を確保しますが、多くの場合、現実的な入力の制約を考慮しません。
この問題に対処するために、パレートのマルチタスク学習フレームワークを活用して、安全性と安全なセットボリュームの競合する目標のバランスを取ります。
PCBFアルゴリズムは、高次元システムに適用でき、計算効率です。
倒立振り子のハミルトン – ヤコビの到達可能性との比較および12次元四肢装置のシミュレーションを通じて、その有効性を検証します。
結果は、PCBFが既存の方法を常に上回り、より大きな安全セットを生み出し、入力制約の下で安全性を確保することを示しています。

要約(オリジナル)

This article introduces the Pareto Control Barrier Function (PCBF) algorithm to maximize the inner safe set of dynamical systems under input constraints. Traditional Control Barrier Functions (CBFs) ensure safety by maintaining system trajectories within a safe set but often fail to account for realistic input constraints. To address this problem, we leverage the Pareto multi-task learning framework to balance competing objectives of safety and safe set volume. The PCBF algorithm is applicable to high-dimensional systems and is computationally efficient. We validate its effectiveness through comparison with Hamilton-Jacobi reachability for an inverted pendulum and through simulations on a 12-dimensional quadrotor system. Results show that the PCBF consistently outperforms existing methods, yielding larger safe sets and ensuring safety under input constraints.

arxiv情報

著者 Xiaoyang Cao,Zhe Fu,Alexandre M. Bayen
発行日 2025-03-20 17:05:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, math.OC | Pareto Control Barrier Function for Inner Safe Set Maximization Under Input Constraints はコメントを受け付けていません

Neural Networks: According to the Principles of Grassmann Algebra

要約

このホワイトペーパーでは、量子idempotentsの代数と、嘘代数に関連するグラスマン代数に等しいヒルベルト空間を生み出すフェルミオンの量子化について調査します。
等身節は検討中の代数の表現を運ぶため、自然トポロジーに代数品種と滑らかな多様体を形成します。
数学物理学を機械学習と結びつける動機に加えて、対応する代数のiDempotentsと不変部分空間を使用することにより、これらの表現がエンコードし、おそらく地理的用語での推論とリレーショナルパスの確率的解釈を提供することも示されています。

要約(オリジナル)

In this paper, we explore the algebra of quantum idempotents and the quantization of fermions which gives rise to a Hilbert space equal to the Grassmann algebra associated with the Lie algebra. Since idempotents carry representations of the algebra under consideration, they form algebraic varieties and smooth manifolds in the natural topology. In addition to the motivation of linking up mathematical physics with machine learning, it is also shown that by using idempotents and invariant subspace of the corresponding algebras, these representations encode and perhaps provide a probabilistic interpretation of reasoning and relational paths in geometrical terms.

arxiv情報

著者 Z. Zarezadeh,N. Zarezadeh
発行日 2025-03-20 17:21:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Neural Networks: According to the Principles of Grassmann Algebra はコメントを受け付けていません

Reinforcement Learning-based Heuristics to Guide Domain-Independent Dynamic Programming

要約

ドメインに依存しない動的プログラミング(DIDP)は、組み合わせ最適化のための動的プログラミングに基づく状態空間検索パラダイムです。
現在の実装では、DIDPはユーザー定義のデュアル境界を使用して検索をガイドします。
補強学習(RL)は、組み合わせの最適化問題にますます適用されており、Bellman方程式と状態ベースの遷移システムで表されるDPといくつかの重要な構造を共有しています。
補強学習を使用してヒューリスティック機能を取得して、DIDPで検索をガイドすることを提案します。
2つのRLベースのガイダンスアプローチを開発します。ディープQネットワークを使用した価値ベースのガイダンスと、近位ポリシーの最適化を使用したポリシーベースのガイダンスです。
私たちの実験は、RLベースのガイダンスが、同じ数のノード拡張を備えた標準的なDIDPと問題固有の貪欲なヒューリスティックを大幅に上回ることを示しています。
さらに、ノード評価時間が長いにもかかわらず、RLガイダンスは、4つのベンチマークドメインのうち3つで標準DIDPよりもランタイムパフォーマンスが向上します。

要約(オリジナル)

Domain-Independent Dynamic Programming (DIDP) is a state-space search paradigm based on dynamic programming for combinatorial optimization. In its current implementation, DIDP guides the search using user-defined dual bounds. Reinforcement learning (RL) is increasingly being applied to combinatorial optimization problems and shares several key structures with DP, being represented by the Bellman equation and state-based transition systems. We propose using reinforcement learning to obtain a heuristic function to guide the search in DIDP. We develop two RL-based guidance approaches: value-based guidance using Deep Q-Networks and policy-based guidance using Proximal Policy Optimization. Our experiments indicate that RL-based guidance significantly outperforms standard DIDP and problem-specific greedy heuristics with the same number of node expansions. Further, despite longer node evaluation times, RL guidance achieves better run-time performance than standard DIDP on three of four benchmark domains.

arxiv情報

著者 Minori Narita,Ryo Kuroiwa,J. Christopher Beck
発行日 2025-03-20 17:33:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Reinforcement Learning-based Heuristics to Guide Domain-Independent Dynamic Programming はコメントを受け付けていません

Is Long Context All You Need? Leveraging LLM’s Extended Context for NL2SQL

要約

大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクにわたって印象的な機能を実証しています。
特に、推論能力の改善とコンテキストウィンドウの拡張により、これらの強力なモデルを活用するための新しい手段が開かれました。
NL2SQLは、自然言語の質問が本質的に曖昧であるという点で挑戦的ですが、SQL生成は複雑なデータスキーマとセマンティクスを正確に理解する必要があります。
このセマンティックな曖昧な問題に対するアプローチの1つは、より多くの十分なコンテキスト情報を提供することです。
この作業では、Googleの最先端のLLM(\ TextIT {gemini-1.5-pro})が提供する拡張コンテキストウィンドウ(別名、長いコンテキスト)のパフォーマンスとレイテンシトレードオフを調査します。
列の例の値、質問とSQLクエリのペア、ユーザーが提供するヒント、SQLドキュメント、スキーマなど、さまざまなコンテキスト情報の影響を調査します。
私たちの知る限り、これは、拡張されたコンテキストウィンドウと追加のコンテキスト情報が、精度と潜時コストの両方に関してNL2SQLの生成をどのように役立つかを研究するための最初の作業です。
長いコンテキストLLMが堅牢であり、拡張されたコンテキスト情報で迷子にならないことを示します。
さらに、Googleの\ textit {gemini-pro-1.5}に基づく長いコンテキストNL2SQLパイプラインは、微調整と高価な自己整合に基づくテクニックなしで、さまざまなベンチマークデータセットで強力なパフォーマンスを実現します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive capabilities across a range of natural language processing tasks. In particular, improvements in reasoning abilities and the expansion of context windows have opened new avenues for leveraging these powerful models. NL2SQL is challenging in that the natural language question is inherently ambiguous, while the SQL generation requires a precise understanding of complex data schema and semantics. One approach to this semantic ambiguous problem is to provide more and sufficient contextual information. In this work, we explore the performance and the latency trade-offs of the extended context window (a.k.a., long context) offered by Google’s state-of-the-art LLM (\textit{gemini-1.5-pro}). We study the impact of various contextual information, including column example values, question and SQL query pairs, user-provided hints, SQL documentation, and schema. To the best of our knowledge, this is the first work to study how the extended context window and extra contextual information can help NL2SQL generation with respect to both accuracy and latency cost. We show that long context LLMs are robust and do not get lost in the extended contextual information. Additionally, our long-context NL2SQL pipeline based on Google’s \textit{gemini-pro-1.5} achieve strong performances on various benchmark datasets without finetuning and expensive self-consistency based techniques.

arxiv情報

著者 Yeounoh Chung,Gaurav T. Kakkar,Yu Gan,Brenton Milne,Fatma Ozcan
発行日 2025-03-20 17:39:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | Is Long Context All You Need? Leveraging LLM’s Extended Context for NL2SQL はコメントを受け付けていません

SPINE: Online Semantic Planning for Missions with Incomplete Natural Language Specifications in Unstructured Environments

要約

ロボットがますます有能になるにつれて、ユーザーは高レベルのミッションを説明し、ロボットに関連する詳細を推測したいと思うでしょう。
事前に構築されたマップは多くの現実的な設定で取得するのが難しいため、そのようなミッションを達成するには、ロボットがオンラインでマッピングおよび計画する必要があります。
多くのセマンティック計画方法はオンラインで動作しますが、通常、オブジェクト検索や探索などの適切に指定されたミッション向けに設計されています。
最近、大規模な言語モデル(LLMS)は、自然言語で説明されているさまざまなロボットタスクに対して強力なコンテキスト推論能力を実証しています。
ただし、既存のLLM対応プランナーは通常、オンライン計画や複雑なミッションを考慮しません。
むしろ、関連するサブタスクとセマンティクスは、事前に構築されたマップまたはユーザーによって提供されます。
これらの制限は、自然言語で提供される不完全なミッション仕様を伴うミッションのオンラインプランナーであるSpineを介して対処します。
プランナーはLLMを使用して、ミッション仕様によって暗示されているサブタスクについて推論し、これらのサブタスクを後退する地平線フレームワークで実現します。
タスクは安全性のために自動的に検証され、新しいマップの観察によりオンラインで洗練されます。
シミュレーションと現実世界の設定で脊椎を評価し、20,000mを超える$^2 $の散らかった屋外環境で、セマンティック推論と探索の複数のステップを必要とするミッションを使用します。
既存のLLM対応計画アプローチを使用するベースラインと比較して、私たちの方法は時間と距離の点で2倍の効率が高く、ユーザーの対話が少なく、完全なマップは必要ありません。
追加のリソースは、https://zacravichandran.github.io/spineに提供されています。

要約(オリジナル)

As robots become increasingly capable, users will want to describe high-level missions and have robots infer the relevant details. because pre-built maps are difficult to obtain in many realistic settings, accomplishing such missions will require the robot to map and plan online. while many semantic planning methods operate online, they are typically designed for well specified missions such as object search or exploration. recently, large language models (LLMs) have demonstrated powerful contextual reasoning abilities over a range of robotic tasks described in natural language. however, existing LLM-enabled planners typically do not consider online planning or complex missions; rather, relevant subtasks and semantics are provided by a pre-built map or a user. we address these limitations via spine, an online planner for missions with incomplete mission specifications provided in natural language. the planner uses an LLM to reason about subtasks implied by the mission specification and then realizes these subtasks in a receding horizon framework. tasks are automatically validated for safety and refined online with new map observations. we evaluate spine in simulation and real-world settings with missions that require multiple steps of semantic reasoning and exploration in cluttered outdoor environments of over 20,000m$^2$. compared to baselines that use existing LLM-enabled planning approaches, our method is over twice as efficient in terms of time and distance, requires less user interactions, and does not require a full map. Additional resources are provided at: https://zacravichandran.github.io/SPINE.

arxiv情報

著者 Zachary Ravichandran,Varun Murali,Mariliza Tzes,George J. Pappas,Vijay Kumar
発行日 2025-03-20 17:43:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | SPINE: Online Semantic Planning for Missions with Incomplete Natural Language Specifications in Unstructured Environments はコメントを受け付けていません

Deconstructing Long Chain-of-Thought: A Structured Reasoning Optimization Framework for Long CoT Distillation

要約

大規模な言語モデル(LLMS)の最近の進歩は、長い考え方(COT)の推論を通じて顕著な推論能力を実証しています。
R1蒸留スキームは、推論能力が強化された費用対効果の高いモデルをトレーニングするための有望なアプローチとして浮上しています。
ただし、その有効性を促進する基礎となるメカニズムは不明のままです。
この研究では、蒸留データの普遍性を調べ、LLM蒸留における長鎖推論能力の効率的な伝達を可能にする重要なコンポーネントを特定します。
我々の調査結果は、Qwen-QWQのような教師モデルからの長いCOTの推論蒸留の有効性が、非精神病モデルで大幅に分解し、現在の蒸留方法の想定される普遍性に挑戦することを明らかにしています。
長いCOT推論の構造とパターンに関するより深い洞察を得るために、蒸留データ強化フレームワークであるDLCOT(長い考え方を解体する)を提案します。
DLCOTは、(1)複雑な長いCOT構造を分解するためのデータセグメンテーション、(2)解決不可能で冗長なソリューションを排除することによる単純化、および(3)中間誤差状態の最適化による3つの重要なステップで構成されています。
私たちのアプローチは、モデルのパフォーマンスとトークン効率を大幅に改善し、高性能LLMの開発を促進します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have demonstrated remarkable reasoning capabilities through long chain-of-thought (CoT) reasoning. The R1 distillation scheme has emerged as a promising approach for training cost-effective models with enhanced reasoning abilities. However, the underlying mechanisms driving its effectiveness remain unclear. This study examines the universality of distillation data and identifies key components that enable the efficient transfer of long-chain reasoning capabilities in LLM distillation. Our findings reveal that the effectiveness of long CoT reasoning distillation from teacher models like Qwen-QwQ degrades significantly on nonhomologous models, challenging the assumed universality of current distillation methods. To gain deeper insights into the structure and patterns of long CoT reasoning, we propose DLCoT (Deconstructing Long Chain-of-Thought), a distillation data enhancement framework. DLCoT consists of three key steps: (1) data segmentation to decompose complex long CoT structures, (2) simplification by eliminating unsolvable and redundant solutions, and (3) optimization of intermediate error states. Our approach significantly improves model performance and token efficiency, facilitating the development of high-performance LLMs.

arxiv情報

著者 Yijia Luo,Yulin Song,Xingyao Zhang,Jiaheng Liu,Weixun Wang,GengRu Chen,Wenbo Su,Bo Zheng
発行日 2025-03-20 17:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Deconstructing Long Chain-of-Thought: A Structured Reasoning Optimization Framework for Long CoT Distillation はコメントを受け付けていません

Graph of Effort: Quantifying Risk of AI Usage for Vulnerability Assessment

要約

AIベースのソフトウェアが広く利用可能になっているため、自動化や複雑なパターン認識など、その機能を活用するリスクが大幅に増加する可能性があります。
攻撃的に使用されるAIは、非AI資産を攻撃するために攻撃的なAIと呼ばれます。
現在の研究では、攻撃的なAIをどのように利用できるか、およびその使用方法をどのように分類できるかを調査しています。
さらに、脅威モデリングの方法は、組織内のAIベースの資産向けに開発されています。
ただし、対処する必要があるギャップがあります。
まず、AIの脅威に寄与する要因を定量化する必要があります。
第二に、組織のすべての資産にわたる脆弱性評価のためにAIによって攻撃されるリスクを分析する脅威モデルを作成するための要件が​​あります。
これは、洗練されたインフラストラクチャとアクセス制御の状況が一般的なクラウド環境では特に重要で困難です。
攻撃的なAIによってもたらされる脅威を定量化してさらに分析する能力により、アナリストは脆弱性をランク付けし、プロアクティブな対策の実装を優先することができます。
これらのギャップに対処するために、このペーパーでは、敵による脆弱性の搾取に攻撃的なAIを使用するために必要な努力を分析するための直感的で柔軟で効果的な脅威モデリング方法である努力のグラフを紹介します。
脅威モデルは機能的であり、貴重なサポートを提供しますが、その設計の選択は将来の作業におけるさらなる経験的検証が必要です。

要約(オリジナル)

With AI-based software becoming widely available, the risk of exploiting its capabilities, such as high automation and complex pattern recognition, could significantly increase. An AI used offensively to attack non-AI assets is referred to as offensive AI. Current research explores how offensive AI can be utilized and how its usage can be classified. Additionally, methods for threat modeling are being developed for AI-based assets within organizations. However, there are gaps that need to be addressed. Firstly, there is a need to quantify the factors contributing to the AI threat. Secondly, there is a requirement to create threat models that analyze the risk of being attacked by AI for vulnerability assessment across all assets of an organization. This is particularly crucial and challenging in cloud environments, where sophisticated infrastructure and access control landscapes are prevalent. The ability to quantify and further analyze the threat posed by offensive AI enables analysts to rank vulnerabilities and prioritize the implementation of proactive countermeasures. To address these gaps, this paper introduces the Graph of Effort, an intuitive, flexible, and effective threat modeling method for analyzing the effort required to use offensive AI for vulnerability exploitation by an adversary. While the threat model is functional and provides valuable support, its design choices need further empirical validation in future work.

arxiv情報

著者 Anket Mehra,Andreas Aßmuth,Malte Prieß
発行日 2025-03-20 17:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.DC | Graph of Effort: Quantifying Risk of AI Usage for Vulnerability Assessment はコメントを受け付けていません

Enhancing the Scalability and Applicability of Kohn-Sham Hamiltonians for Molecular Systems

要約

密度官能理論(DFT)は、量子化学および材料科学の中で極めて重要な方法であり、そのコアはコーンシャムハミルトニアンの構造と溶液を含みます。
その重要性にもかかわらず、DFTの適用は、Kohn-Sham Hamiltonianの構築に必要な実質的な計算リソースによってしばしば制限されます。
これらの制限に応じて、現在の研究では、神経ネットワークにエンコードされたロト翻訳対称性を備えた分子および固体のハミルトニアンを効率的に予測するために、深部学習モデルを採用しています。
ただし、前のモデルのスケーラビリティは、大きな分子に適用された場合に問題がある場合があり、その結果、地下鉄特性の非物理的な予測が生じます。
この研究では、以前に使用したよりも大幅に大きなトレーニングセット(pubchemqh)を生成し、それを使用して、物理的精度でDFT計算のスケーラブルなモデルを作成します。
モデルでは、物理的原理から導出された損失関数を導入し、これを波動関数アライメント損失(Waloss)と呼びます。
Walossは、予測されたハミルトニアンに基本的な変更を行い、観測されたものと整列させることを伴います。
したがって、結果として生じる違いは、軌道エネルギーの違いの代理として機能し、モデルが以前よりも分子軌道と総エネルギーをより良い予測することができます。
Walossはまた、自己矛盾したフィールド(SCF)DFT計算を大幅に加速します。
ここでは、総エネルギー予測誤差が1347倍になり、SCFの計算速度が18%増加することを示しています。
これらの大幅な改善により、より大きな分子システムで正確で適用可能な予測を達成するための新しいベンチマークが設定されています。

要約(オリジナル)

Density Functional Theory (DFT) is a pivotal method within quantum chemistry and materials science, with its core involving the construction and solution of the Kohn-Sham Hamiltonian. Despite its importance, the application of DFT is frequently limited by the substantial computational resources required to construct the Kohn-Sham Hamiltonian. In response to these limitations, current research has employed deep-learning models to efficiently predict molecular and solid Hamiltonians, with roto-translational symmetries encoded in their neural networks. However, the scalability of prior models may be problematic when applied to large molecules, resulting in non-physical predictions of ground-state properties. In this study, we generate a substantially larger training set (PubChemQH) than used previously and use it to create a scalable model for DFT calculations with physical accuracy. For our model, we introduce a loss function derived from physical principles, which we call Wavefunction Alignment Loss (WALoss). WALoss involves performing a basis change on the predicted Hamiltonian to align it with the observed one; thus, the resulting differences can serve as a surrogate for orbital energy differences, allowing models to make better predictions for molecular orbitals and total energies than previously possible. WALoss also substantially accelerates self-consistent-field (SCF) DFT calculations. Here, we show it achieves a reduction in total energy prediction error by a factor of 1347 and an SCF calculation speed-up by a factor of 18%. These substantial improvements set new benchmarks for achieving accurate and applicable predictions in larger molecular systems.

arxiv情報

著者 Yunyang Li,Zaishuo Xia,Lin Huang,Xinran Wei,Han Yang,Sam Harshe,Zun Wang,Chang Liu,Jia Zhang,Bin Shao,Mark B. Gerstein
発行日 2025-03-20 17:54:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.AI, cs.LG, physics.chem-ph | Enhancing the Scalability and Applicability of Kohn-Sham Hamiltonians for Molecular Systems はコメントを受け付けていません