Computational Hypergraph Discovery, a Gaussian Process framework for connecting the dots

要約

ほとんどの科学的課題は、関数近似の複雑さの次の 3 つのレベルのいずれかに分類できます。
タイプ 1: 入力/出力データが与えられた未知の関数を近似します。
タイプ 2: ハイパーグラフ (エッジが 3 つ以上の頂点を接続できる一般化されたグラフ) のノードとハイパーエッジによってインデックス付けされた変数と関数のコレクションを考えます。変数と関数のコレクションには、未知のものも含まれます。
ハイパーグラフの変数の部分的な観測値 (その構造によって課せられる関数の依存関係を満たす) が与えられると、すべての観測されていない変数と未知の関数を近似します。
タイプ 3: タイプ 2 を拡張し、ハイパーグラフの構造自体が不明な場合は、ハイパーグラフの変数の部分観測を使用してその構造を発見し、その未知の関数を近似します。
ほとんどの計算科学および工学および科学的機械学習の課題はタイプ 1 およびタイプ 2 の問題として分類できますが、多くの科学的問題はタイプ 3 としてのみ分類できます。これらのタイプ 3 の課題は、広く普及しているにもかかわらず、その固有の複雑さのため、ほとんど見落とされてきました。

ガウス プロセス (GP) 法は、根拠は十分にあるものの、タイプ 1 の曲線近似に限定された古い技術であると認識されることがありますが、最近ではその範囲がタイプ 2 の問題にも拡大されています。
この論文では、データ駆動型の発見と計算ハイパーグラフの完成を目的とした、タイプ 3 の問題に対する解釈可能な GP フレームワークを紹介します。
私たちのアプローチは、線形システムから非線形システムへの行エシュロン形式の削減のカーネル一般化と分散ベースの分析に基づいています。
ここでは、変数が GP を介してリンクされており、最も高いデータ分散に寄与する変数がハイパーグラフの構造を明らかにします。
(代数)方程式の発見、ネットワーク発見(遺伝子経路、化学的、機械的)および生データ分析への応用を用いて、提案されたアプローチの範囲と効率を説明します。

要約(オリジナル)

Most scientific challenges can be framed into one of the following three levels of complexity of function approximation. Type 1: Approximate an unknown function given input/output data. Type 2: Consider a collection of variables and functions, some of which are unknown, indexed by the nodes and hyperedges of a hypergraph (a generalized graph where edges can connect more than two vertices). Given partial observations of the variables of the hypergraph (satisfying the functional dependencies imposed by its structure), approximate all the unobserved variables and unknown functions. Type 3: Expanding on Type 2, if the hypergraph structure itself is unknown, use partial observations of the variables of the hypergraph to discover its structure and approximate its unknown functions. While most Computational Science and Engineering and Scientific Machine Learning challenges can be framed as Type 1 and Type 2 problems, many scientific problems can only be categorized as Type 3. Despite their prevalence, these Type 3 challenges have been largely overlooked due to their inherent complexity. Although Gaussian Process (GP) methods are sometimes perceived as well-founded but old technology limited to Type 1 curve fitting, their scope has recently been expanded to Type 2 problems. In this paper, we introduce an interpretable GP framework for Type 3 problems, targeting the data-driven discovery and completion of computational hypergraphs. Our approach is based on a kernel generalization of Row Echelon Form reduction from linear systems to nonlinear ones and variance-based analysis. Here, variables are linked via GPs and those contributing to the highest data variance unveil the hypergraph’s structure. We illustrate the scope and efficiency of the proposed approach with applications to (algebraic) equation discovery, network discovery (gene pathways, chemical, and mechanical) and raw data analysis.

arxiv情報

著者 Théo Bourdais,Pau Batlle,Xianjin Yang,Ricardo Baptista,Nicolas Rouquette,Houman Owhadi
発行日 2023-11-28 18:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 15A83, 46E22, 62A09, 62D20, 62H22, 62J02, 65S05, 68R10, 90C35, 94C15, cs.AI, cs.LG, cs.NA, cs.SI, math.NA, stat.ML パーマリンク