要約
代数法則に従うより単純なタイプの組み合わせにより形成された複合データ構造(ADT)を通じて、新しい分子表現を導入します。
表現のデータタイプが実行される可能性のある操作をどのように制約するかを明示的に検討することにより、生成モデル(サンプルを備えたプログラム}およびスコア操作)に対して意味のある推論を実行できるようにします。
これは、ストリングタイプの操作が間接的に化学的および物理分子特性にのみ対応し、最悪の場合は無意味な出力を生成する文字列ベースの表現とは対照的です。
ADTは、マルチグラフとボンディングシステムを介して分子構成のDIETZ表現を実装し、アトミック座標データを使用して3D情報と立体化学的特徴を表します。
これにより、文字列ベースの表現の制限と、それらが基づいている2Dグラフベースのモデルを上回る一般的なデジタル分子表現が作成されます。
さらに、シェル、サブシェル、軌道の表現を通じて量子情報に対する新しいサポートを提示し、分子軌道理論のように、現在のアプローチを超えて表現範囲を大幅に拡大します。
フレームワークの機能は、主要なアプリケーションを通じて実証されています。ベイジアン確率的プログラミングは、怠zyな確率的プログラミングライブラリであるLazyPplとの統合を通じて実証されています。
分子は、さまざまな表現の下で分子特性の不変性を活用する幾何学学習技術に必要な、回転中のグループのインスタンスで作られています。
また、フレームワークの柔軟性は、化学反応をモデル化するための拡張を通じて実証されています。
以前の表現を批判した後、Haskellでオープンソースソリューションを提供します。これは、タイプセーフ、純粋に機能的なプログラミング言語です。
要約(オリジナル)
We introduce a novel molecular representation through Algebraic Data Types (ADTs) – composite data structures formed through the combination of simpler types that obey algebraic laws. By explicitly considering how the datatype of a representation constrains the operations which may be performed, we ensure meaningful inference can be performed over generative models (programs with sample} and score operations). This stands in contrast to string-based representations where string-type operations may only indirectly correspond to chemical and physical molecular properties, and at worst produce nonsensical output. The ADT presented implements the Dietz representation for molecular constitution via multigraphs and bonding systems, and uses atomic coordinate data to represent 3D information and stereochemical features. This creates a general digital molecular representation which surpasses the limitations of the string-based representations and the 2D-graph based models on which they are based. In addition, we present novel support for quantum information through representation of shells, subshells, and orbitals, greatly expanding the representational scope beyond current approaches, for instance in Molecular Orbital theory. The framework’s capabilities are demonstrated through key applications: Bayesian probabilistic programming is demonstrated through integration with LazyPPL, a lazy probabilistic programming library; molecules are made instances of a group under rotation, necessary for geometric learning techniques which exploit the invariance of molecular properties under different representations; and the framework’s flexibility is demonstrated through an extension to model chemical reactions. After critiquing previous representations, we provide an open-source solution in Haskell – a type-safe, purely functional programming language.
arxiv情報
著者 | Oliver Goldstein,Samuel March |
発行日 | 2025-02-07 16:58:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google