要約
Transformersはどのように列挙幾何学をモデル化し学習できるのか?数学者と機械の共同作業における帰納的知識発見においてTransformerを使用するためのロバストな手順とは何か?この研究では、特に曲線のモジュライ空間上の$psi$級交点の計算を対象とした、計算的列挙幾何学へのTransformerベースのアプローチを紹介する。この問題を連続最適化課題として再定式化することにより、$10^{-45}$から$10^{-45}$までの広い値域にわたって交点数を計算する。これらの交点数に内在する再帰的な性質を捉えるために、我々はダイナミックレンジアクティベータ(DRA)を提案する。この新しい活性化関数は、Transformerの再帰的なパターンをモデル化する能力を強化し、深刻な異分散性を扱う。交点の計算精度が要求される場合、等価なマーク点数のパーティションに適応した動的なスライディングウィンドウを用いたコンフォーマル予測を用いて、予測値の不確実性を定量化する。我々の知る限り、このような高変量かつ階乗成長を伴う再帰関数のモデル化に関する先行研究はない。単に交点数を計算するだけでなく、我々はTransformersの列挙的な「ワールドモデル」を探求する。我々の解釈可能性分析により、このネットワークがVirasoro制約を純粋にデータ駆動的な方法で暗黙的にモデル化していることが明らかになった。さらに、帰納的仮説検定、プロービング、因果推論を通して、$psi$級交点の数の大属漸近の創発的内部表現の証拠を発見した。これらの知見は、ネットワークが$psi$級交点の漸近閉形式のパラメータと多項式現象を非線形に内部化していることを示唆している。
要約(オリジナル)
How can Transformers model and learn enumerative geometry? What is a robust procedure for using Transformers in abductive knowledge discovery within a mathematician-machine collaboration? In this work, we introduce a Transformer-based approach to computational enumerative geometry, specifically targeting the computation of $\psi$-class intersection numbers on the moduli space of curves. By reformulating the problem as a continuous optimization task, we compute intersection numbers across a wide value range from $10^{-45}$ to $10^{45}$. To capture the recursive nature inherent in these intersection numbers, we propose the Dynamic Range Activator (DRA), a new activation function that enhances the Transformer’s ability to model recursive patterns and handle severe heteroscedasticity. Given precision requirements for computing the intersections, we quantify the uncertainty of the predictions using Conformal Prediction with a dynamic sliding window adaptive to the partitions of equivalent number of marked points. To the best of our knowledge, there has been no prior work on modeling recursive functions with such a high-variance and factorial growth. Beyond simply computing intersection numbers, we explore the enumerative ‘world-model’ of Transformers. Our interpretability analysis reveals that the network is implicitly modeling the Virasoro constraints in a purely data-driven manner. Moreover, through abductive hypothesis testing, probing, and causal inference, we uncover evidence of an emergent internal representation of the the large-genus asymptotic of $\psi$-class intersection numbers. These findings suggest that the network internalizes the parameters of the asymptotic closed-form and the polynomiality phenomenon of $\psi$-class intersection numbers in a non-linear manner.
arxiv情報
著者 | Baran Hashemi,Roderic G. Corominas,Alessandro Giacchetto |
発行日 | 2025-01-03 14:21:20+00:00 |
arxivサイト | arxiv_id(pdf) |