Closed-Form Interpretation of Neural Network Latent Spaces with Symbolic Gradients

要約

オートエンコーダやシャムネットワークのような人工ニューラルネットワークが、その潜在空間に意味のある概念を符号化することは、多くの科学分野で実証されている。しかし、この情報を予備知識なしに人間が読める形で取り出すための包括的な枠組みは存在しない。これらの概念を抽出するために、我々は人工ニューラルネットワークの潜在空間におけるニューロンの閉形式の解釈を見つけるためのフレームワークを導入する。この解釈の枠組みは、訓練されたニューラルネットワークを、同じ概念をエンコードする関数の等価クラスに埋め込むことに基づいている。等価クラスと、記号探索空間によって定義された人間が読める方程式との交点を見つけることによって、これらのニューラルネットワークを解釈する。このアプローチは、シャム型ニューラルネットワークの潜在空間から行列の不変量と力学系の保存量を検索することで実証される。

要約(オリジナル)

It has been demonstrated in many scientific fields that artificial neural networks like autoencoders or Siamese networks encode meaningful concepts in their latent spaces. However, there does not exist a comprehensive framework for retrieving this information in a human-readable form without prior knowledge. In order to extract these concepts, we introduce a framework for finding closed-form interpretations of neurons in latent spaces of artificial neural networks. The interpretation framework is based on embedding trained neural networks into an equivalence class of functions that encode the same concept. We interpret these neural networks by finding an intersection between the equivalence class and human-readable equations defined by a symbolic search space. The approach is demonstrated by retrieving invariants of matrices and conserved quantities of dynamical systems from latent spaces of Siamese neural networks.

arxiv情報

著者 Zakaria Patel,Sebastian J. Wetzel
発行日 2024-12-03 17:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク