Geometry Informed Tokenization of Molecules for Language Model Generation

要約

言語モデル (LM) を使用して 3D 空間での分子生成を検討します。これには、3D 分子形状の離散トークン化が必要です。
分子グラフのトークン化は存在しますが、3D ジオメトリのトークン化はほとんど調査されていません。
ここでは、分子幾何学を $SE(3)$ 不変 1D 離散配列に変換する Geo2Seq を提案することで、このギャップを埋めることを試みます。
Geo2Seq は、標準的なラベル付けと不変の球面表現のステップで構成され、LM に適した形式で幾何学的および原子の忠実度を維持します。
私たちの実験では、Geo2Seq と組み合わせると、さまざまな LM が分子幾何学生成、特に制御された生成タスクにおいて優れていることが示されました。

要約(オリジナル)

We consider molecule generation in 3D space using language models (LMs), which requires discrete tokenization of 3D molecular geometries. Although tokenization of molecular graphs exists, that for 3D geometries is largely unexplored. Here, we attempt to bridge this gap by proposing the Geo2Seq, which converts molecular geometries into $SE(3)$-invariant 1D discrete sequences. Geo2Seq consists of canonical labeling and invariant spherical representation steps, which together maintain geometric and atomic fidelity in a format conducive to LMs. Our experiments show that, when coupled with Geo2Seq, various LMs excel in molecular geometry generation, especially in controlled generation tasks.

arxiv情報

著者 Xiner Li,Limei Wang,Youzhi Luo,Carl Edwards,Shurui Gui,Yuchao Lin,Heng Ji,Shuiwang Ji
発行日 2024-08-19 16:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク