Interpretable Multi-Source Data Fusion Through Latent Variable Gaussian Process

要約

人工知能 (AI) と機械学習 (ML) の出現により、科学および工学コミュニティのさまざまな領域がデータ駆動型サロゲートを活用して、多数の情報源 (データ) から複雑なシステムをモデル化しています。
この普及により、特定の機能を実行するように設計された優れたシステムの開発にかかるコストと時間が大幅に削減されました。
このようなサロゲートの重要な提案は、出版された論文、特許、オープン リポジトリ、またはその他のリソースなど、複数のデータ ソースを広範囲に融合して構築されます。
しかし、システム最適化中に下流に影響を与える可能性がある、情報ソースの既知および未知の基礎となる物理パラメータの品質と包括性の違いには、あまり注意が払われてきませんでした。
この問題の解決に向けて、潜在変数ガウス過程 (LVGP) に基づくマルチソース データ融合フレームワークが提案されています。
個々のデータ ソースは、物理的に解釈可能な潜在空間にマッピングされる特性カテゴリ変数としてタグ付けされ、ソースを意識したデータ融合モデリングの開発を可能にします。
さらに、データソースの違いを研究し理解するために、LVGP の潜在変数に基づく非類似性メトリクスが導入されています。
提案されたアプローチは、2 つの数学 (代表的な放物線問題、2D Ackley 関数) と 2 つの材料科学 (FeCrAl および SmCoFe 合金の設計) のケーススタディで実証および分析されます。
ケーススタディから、単一ソースおよびソース非認識 ML モデルを使用する場合と比較して、提案されたマルチソース データ融合フレームワークは、スパース データの問題に対するより適切な予測、ソースに関する解釈可能性、および強化されたモデリング機能を提供できることがわかります。
さまざまな情報源間の相関関係や関係性を活用することができます。

要約(オリジナル)

With the advent of artificial intelligence (AI) and machine learning (ML), various domains of science and engineering communites has leveraged data-driven surrogates to model complex systems from numerous sources of information (data). The proliferation has led to significant reduction in cost and time involved in development of superior systems designed to perform specific functionalities. A high proposition of such surrogates are built extensively fusing multiple sources of data, may it be published papers, patents, open repositories, or other resources. However, not much attention has been paid to the differences in quality and comprehensiveness of the known and unknown underlying physical parameters of the information sources that could have downstream implications during system optimization. Towards resolving this issue, a multi-source data fusion framework based on Latent Variable Gaussian Process (LVGP) is proposed. The individual data sources are tagged as a characteristic categorical variable that are mapped into a physically interpretable latent space, allowing the development of source-aware data fusion modeling. Additionally, a dissimilarity metric based on the latent variables of LVGP is introduced to study and understand the differences in the sources of data. The proposed approach is demonstrated on and analyzed through two mathematical (representative parabola problem, 2D Ackley function) and two materials science (design of FeCrAl and SmCoFe alloys) case studies. From the case studies, it is observed that compared to using single-source and source unaware ML models, the proposed multi-source data fusion framework can provide better predictions for sparse-data problems, interpretability regarding the sources, and enhanced modeling capabilities by taking advantage of the correlations and relationships among different sources.

arxiv情報

著者 Sandipp Krishnan Ravi,Yigitcan Comlek,Wei Chen,Arjun Pathak,Vipul Gupta,Rajnikant Umretiya,Andrew Hoffman,Ghanshyam Pilania,Piyush Pandita,Sayan Ghosh,Nathaniel Mckeever,Liping Wang
発行日 2024-02-16 18:17:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク