要約
テキストベースの基礎モデルは、分子基盤モデルが分子設計と材料科学の進歩を促進するため、科学的発見の重要な部分になりました。
ただし、既存のモデルは、分子空間のほんの一部のみをキャプチャする閉鎖トークンザーによって制約されています。
この作業では、スマイル分子表現言語のカバレッジについて、化学特有のもの19を含む30のトナイザーを体系的に評価し、重要なギャップを明らかにします。
トークン剤の選択の影響を評価するために、N-Gram言語モデルを低コストのプロキシとして導入し、分子特性予測のために18のRobertaスタイルのエンコーダーを微調整することにより、それらの有効性を検証します。
既存のトークンザーの制限を克服するために、OpenSmilesの仕様を完全にカバーして、2つの新しいトークンザー(ShirkとShirk-Gpe)を提案します。
私たちの結果は、化学情報学におけるオープンボキャブラリーモデリングと化学的に多様なベンチマークの必要性を強調しています。
提案されたトークンザーフレームワークは、核、電子、幾何学の自由度を体系的に統合します。
これにより、薬理学、農業、生物学、およびエネルギー貯蔵のアプリケーションが容易になります。
要約(オリジナル)
Text-based foundation models have become an important part of scientific discovery, with molecular foundation models accelerating advancements in molecular design and materials science. However, existing models are constrained by closed-vocabulary tokenizers which capture only a fraction of molecular space. In this work, we systematically evaluate thirty tokenizers, including 19 chemistry-specific ones, for their coverage of the SMILES molecular representation language, revealing significant gaps. To assess the impact of tokenizer choice, we introduce n-gram language models as a low-cost proxy and validate their effectiveness by training and fine-tuning 18 RoBERTa-style encoders for molecular property prediction. To overcome the limitations of existing tokenizers, we propose two new tokenizers — Smirk and Smirk-GPE — with full coverage of the OpenSMILES specification. Our results highlight the need for open-vocabulary modeling and chemically diverse benchmarks in cheminformatics. The proposed tokenizer framework systematically integrates nuclear, electronic, and geometric degrees of freedom; this facilitates applications in pharmacology, agriculture, biology, and energy storage.
arxiv情報
著者 | Alexius Wadell,Anoushka Bhutani,Venkatasubramanian Viswanathan |
発行日 | 2025-02-07 18:36:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google