Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach

要約

機械的解釈可能性は、ニューラル ネットワークによって実行される計算を、その内部コンポーネントの観点からリバース エンジニアリングすることを目的としています。
ニューラル ネットワークの機械的解釈に関する研究は増えていますが、機械的解釈の概念自体はアドホックであることがよくあります。
プログラムの近似的な意味論を開発することを目的としたプログラム分析文献からの抽象的解釈の概念に触発され、分析中のニューラル ネットワークの意味論を構成論的にほぼ捉える記述として機構的解釈を正式に特徴付ける一連の公理を提供します。
やり方。
これらの公理を使用して、よく知られた 2-SAT 問題を解決するためにトレーニングされた Transformer ベースのモデルの機構的解釈可能性分析をガイドします。
モデルによって学習されたアルゴリズムをリバース エンジニアリングすることができます。モデルはまず入力式を解析し、次にブール入力変数のさまざまな可能な評価を列挙することでその充足可能性を評価します。
また、分析されたモデルの機械論的解釈が実際に述べられた公理を満たしていることを裏付ける証拠も提示します。

要約(オリジナル)

Mechanistic interpretability aims to reverse engineer the computation performed by a neural network in terms of its internal components. Although there is a growing body of research on mechanistic interpretation of neural networks, the notion of a mechanistic interpretation itself is often ad-hoc. Inspired by the notion of abstract interpretation from the program analysis literature that aims to develop approximate semantics for programs, we give a set of axioms that formally characterize a mechanistic interpretation as a description that approximately captures the semantics of the neural network under analysis in a compositional manner. We use these axioms to guide the mechanistic interpretability analysis of a Transformer-based model trained to solve the well-known 2-SAT problem. We are able to reverse engineer the algorithm learned by the model — the model first parses the input formulas and then evaluates their satisfiability via enumeration of different possible valuations of the Boolean input variables. We also present evidence to support that the mechanistic interpretation of the analyzed model indeed satisfies the stated axioms.

arxiv情報

著者 Nils Palumbo,Ravi Mangal,Zifan Wang,Saranya Vijayakumar,Corina S. Pasareanu,Somesh Jha
発行日 2024-07-18 15:32:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク