Sampling Latent Material-Property Information From LLM-Derived Embedding Representations

要約

大規模言語モデル (LLM) から派生したベクトル埋め込みは、文献から潜在的な情報を取得するのに有望です。
興味深いことに、これらは材料の埋め込みに統合でき、材料特性のデータ駆動型予測に役立つ可能性があります。
私たちは、LLM 由来のベクトルが必要な情報をどの程度捕捉するか、および追加のトレーニングなしで材料特性についての洞察を提供する可能性を調査します。
私たちの調査結果は、LLM を使用して特定のプロパティ情報を反映する表現を生成することはできますが、埋め込みを抽出するには、最適な文脈上の手がかりと適切なコンパレーターを識別する必要があることを示しています。
この制限にもかかわらず、LLM は意味のある材料科学表現を生成するのに役立つ可能性を依然として秘めているようです。

要約(オリジナル)

Vector embeddings derived from large language models (LLMs) show promise in capturing latent information from the literature. Interestingly, these can be integrated into material embeddings, potentially useful for data-driven predictions of materials properties. We investigate the extent to which LLM-derived vectors capture the desired information and their potential to provide insights into material properties without additional training. Our findings indicate that, although LLMs can be used to generate representations reflecting certain property information, extracting the embeddings requires identifying the optimal contextual clues and appropriate comparators. Despite this restriction, it appears that LLMs still have the potential to be useful in generating meaningful materials-science representations.

arxiv情報

著者 Luke P. J. Gilligan,Matteo Cobelli,Hasan M. Sayeed,Taylor D. Sparks,Stefano Sanvito
発行日 2024-09-18 13:22:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CL パーマリンク