要約
材料学習の機械学習は、特に社内の実験では、合成データを生成することは費用がかかり、時間がかかるため、実験データが限られているため課題に直面しています。
既存の文献からのマイニングデータは、データの品質、一貫性のない形式、実験パラメーターの報告の変動などの問題を導入し、学習アルゴリズムの一貫した機能の作成を複雑にします。
さらに、連続的な機能と個別の機能を組み合わせることで、データが限られたデータと学習プロセスを妨げる可能性があります。
ここでは、既存の文献からまとめられたグラフェン化学蒸気堆積合成の限られた不均一なデータセットで、大きな言語モデル(LLMS)を利用して機械学習性能を強化する戦略を提案します。
これらの戦略には、欠落データポイントを帰属させるためのモダリティを促し、大規模な言語モデルの埋め込みを活用して、化学蒸気堆積実験で報告された基質の複雑な命名法をコードすることが含まれます。
提案された戦略は、サポートベクターマシン(SVM)モデルを使用したグラフェン層の分類を強化し、39%から65%にバイナリ分類精度を増加させ、52%から72%に3成分精度を高めます。
SVMとGPT-4モデルのパフォーマンスを比較します。これは、同じデータで訓練され、微調整されています。
私たちの結果は、数値分類器がLLM駆動型のデータ強化と組み合わせると、スタンドアロンLLM予測子よりも優れていることを示しており、データスカルスシナリオでは、LLM戦略での予測学習を改善するには、データセットの単純な微調整以上のものが必要であることを強調しています。
代わりに、最適なパフォーマンスを実現するために、データ代入と特徴空間の均質化のための洗練されたアプローチが必要です。
提案された戦略は、データ強化技術を強調し、希少で不均一なデータセットの機械学習性能を改善するための広く適用可能なフレームワークを提供します。
要約(オリジナル)
Machine learning in materials science faces challenges due to limited experimental data, as generating synthesis data is costly and time-consuming, especially with in-house experiments. Mining data from existing literature introduces issues like mixed data quality, inconsistent formats, and variations in reporting experimental parameters, complicating the creation of consistent features for the learning algorithm. Additionally, combining continuous and discrete features can hinder the learning process with limited data. Here, we propose strategies that utilize large language models (LLMs) to enhance machine learning performance on a limited, heterogeneous dataset of graphene chemical vapor deposition synthesis compiled from existing literature. These strategies include prompting modalities for imputing missing data points and leveraging large language model embeddings to encode the complex nomenclature of substrates reported in chemical vapor deposition experiments. The proposed strategies enhance graphene layer classification using a support vector machine (SVM) model, increasing binary classification accuracy from 39% to 65% and ternary accuracy from 52% to 72%. We compare the performance of the SVM and a GPT-4 model, both trained and fine-tuned on the same data. Our results demonstrate that the numerical classifier, when combined with LLM-driven data enhancements, outperforms the standalone LLM predictor, highlighting that in data-scarce scenarios, improving predictive learning with LLM strategies requires more than simple fine-tuning on datasets. Instead, it necessitates sophisticated approaches for data imputation and feature space homogenization to achieve optimal performance. The proposed strategies emphasize data enhancement techniques, offering a broadly applicable framework for improving machine learning performance on scarce, inhomogeneous datasets.
arxiv情報
著者 | Devi Dutta Biswajeet,Sara Kadkhodaei |
発行日 | 2025-03-10 14:04:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google