Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models

要約

テキストベースの基礎モデルは、分子基盤モデルが分子設計と材料科学の進歩を促進するため、科学的発見の重要な部分になりました。
ただし、既存のモデルは、分子空間のほんの一部のみをキャプチャする閉鎖トークンザーによって制約されています。
この作業では、スマイル分子表現言語のカバレッジについて、化学特有のもの19を含む30のトナイザーを体系的に評価し、重要なギャップを明らかにします。
トークン剤の選択の影響を評価するために、N-Gram言語モデルを低コストのプロキシとして導入し、分子特性予測のために18のRobertaスタイルのエンコーダーを微調整することにより、それらの有効性を検証します。
既存のトークンザーの制限を克服するために、OpenSmilesの仕様を完全にカバーして、2つの新しいトークンザー(ShirkとShirk-Gpe)を提案します。
私たちの結果は、化学情報学におけるオープンボキャブラリーモデリングと化学的に多様なベンチマークの必要性を強調しています。
提案されたトークンザーフレームワークは、核、電子、幾何学の自由度を体系的に統合します。
これにより、薬理学、農業、生物学、およびエネルギー貯蔵のアプリケーションが容易になります。

要約(オリジナル)

Text-based foundation models have become an important part of scientific discovery, with molecular foundation models accelerating advancements in molecular design and materials science. However, existing models are constrained by closed-vocabulary tokenizers which capture only a fraction of molecular space. In this work, we systematically evaluate thirty tokenizers, including 19 chemistry-specific ones, for their coverage of the SMILES molecular representation language, revealing significant gaps. To assess the impact of tokenizer choice, we introduce n-gram language models as a low-cost proxy and validate their effectiveness by training and fine-tuning 18 RoBERTa-style encoders for molecular property prediction. To overcome the limitations of existing tokenizers, we propose two new tokenizers — Smirk and Smirk-GPE — with full coverage of the OpenSMILES specification. Our results highlight the need for open-vocabulary modeling and chemically diverse benchmarks in cheminformatics. The proposed tokenizer framework systematically integrates nuclear, electronic, and geometric degrees of freedom; this facilitates applications in pharmacology, agriculture, biology, and energy storage.

arxiv情報

著者 Alexius Wadell,Anoushka Bhutani,Venkatasubramanian Viswanathan
発行日 2025-02-07 18:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.chem-ph, q-bio.BM パーマリンク