要約
複雑な自然現象をモデル化するために記号的な数式が不可欠な時代では、科学的調査には観察を収集し、それらを数式に変換することがよく含まれます。
最近、ディープラーニングがデータから洞察を抽出するための強力なツールとして登場しました。
ただし、既存のモデルは通常、数値ドメインまたは記号ドメインのいずれかに特化しており、通常は特定のタスクに合わせた教師付き方法でトレーニングされます。
このアプローチは、記号方程式とそれに対応する数値方程式の間のタスクに依存しない統一された理解から生じる可能性のある実質的な利点を無視しています。
このギャップを埋めるために、シンボリックと数値の統合事前トレーニングである SNIP を導入します。これは、シンボリック ドメインと数値ドメイン間の共同対比学習を採用し、事前トレーニングされた埋め込みにおける相互の類似性を強化します。
潜在空間分析を実行することにより、SNIP が表現に対するクロスドメインの洞察を提供することを観察し、シンボリック監視が数値データの埋め込みを強化し、その逆も同様であることを明らかにしました。
一般にシンボリック回帰として知られる、シンボリックから数値への数学的特性の予測や数値からシンボリックへの方程式の発見など、さまざまなタスクにわたって SNIP を評価します。
結果は、SNIP がさまざまなタスクに効果的に移行し、特に利用可能なデータが限られている少数ショット学習シナリオにおいて、完全に監視されたベースラインを常に上回り、確立されたタスク固有の手法と強力に競合することを示しています。
要約(オリジナル)
In an era where symbolic mathematical equations are indispensable for modeling complex natural phenomena, scientific inquiry often involves collecting observations and translating them into mathematical expressions. Recently, deep learning has emerged as a powerful tool for extracting insights from data. However, existing models typically specialize in either numeric or symbolic domains, and are usually trained in a supervised manner tailored to specific tasks. This approach neglects the substantial benefits that could arise from a task-agnostic unified understanding between symbolic equations and their numeric counterparts. To bridge the gap, we introduce SNIP, a Symbolic-Numeric Integrated Pre-training, which employs joint contrastive learning between symbolic and numeric domains, enhancing their mutual similarities in the pre-trained embeddings. By performing latent space analysis, we observe that SNIP provides cross-domain insights into the representations, revealing that symbolic supervision enhances the embeddings of numeric data and vice versa. We evaluate SNIP across diverse tasks, including symbolic-to-numeric mathematical property prediction and numeric-to-symbolic equation discovery, commonly known as symbolic regression. Results show that SNIP effectively transfers to various tasks, consistently outperforming fully supervised baselines and competing strongly with established task-specific methods, especially in few-shot learning scenarios where available data is limited.
arxiv情報
著者 | Kazem Meidani,Parshin Shojaee,Chandan K. Reddy,Amir Barati Farimani |
発行日 | 2023-10-19 13:53:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google