要約
物質科学における言語モデルの予測機能の探求は、継続的な関心の対象となっています。
この研究では、材料科学における材料特性予測を強化するための言語モデル埋め込みの適用を調査します。
さまざまなコンテキスト埋め込み手法と、トランスフォーマーからの双方向エンコーダー表現 (BERT) や生成事前トレーニング済みトランスフォーマー (GPT) を含む事前トレーニング済みモデルを評価することにより、ドメイン固有のモデル、特に MatBERT が暗黙的な抽出において汎用モデルよりも大幅に優れていることを実証します。
化合物名と材料特性からの知識。
私たちの調査結果は、MatBERT の 3 番目の層からの情報密度の高い埋め込みと、コンテキスト平均化アプローチを組み合わせることで、科学文献から材料と特性の関係を取得する最も効果的な方法を提供することを明らかにしました。
また、重要な「トークナイザー効果」も特定し、一貫したトークン数を維持しながら完全な複合名を保存する特殊なテキスト処理技術の重要性を強調しています。
これらの洞察は、材料科学アプリケーションにおけるドメイン固有のトレーニングとトークン化の価値を強調し、AI 主導のアプローチを通じて新材料の発見と開発を加速するための有望な道筋を提供します。
要約(オリジナル)
Exploring the predictive capabilities of language models in material science is an ongoing interest. This study investigates the application of language model embeddings to enhance material property prediction in materials science. By evaluating various contextual embedding methods and pre-trained models, including Bidirectional Encoder Representations from Transformers (BERT) and Generative Pre-trained Transformers (GPT), we demonstrate that domain-specific models, particularly MatBERT significantly outperform general-purpose models in extracting implicit knowledge from compound names and material properties. Our findings reveal that information-dense embeddings from the third layer of MatBERT, combined with a context-averaging approach, offer the most effective method for capturing material-property relationships from the scientific literature. We also identify a crucial ‘tokenizer effect,’ highlighting the importance of specialized text processing techniques that preserve complete compound names while maintaining consistent token counts. These insights underscore the value of domain-specific training and tokenization in materials science applications and offer a promising pathway for accelerating the discovery and development of new materials through AI-driven approaches.
arxiv情報
著者 | Yuwei Wan,Tong Xie,Nan Wu,Wenjie Zhang,Chunyu Kit,Bram Hoex |
発行日 | 2024-10-21 16:31:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google