要約
この研究では、機械的解釈可能性 (モデルの重みを人間が解釈可能なアルゴリズムにリバース エンジニアリングする手法) を使用して、モデルのパフォーマンスに関する正式な保証を導出し、コンパクトに証明することを提案します。
Max-of-$K$ タスクでトレーニングされた 151 個の小型変圧器の精度の下限を正式に証明することで、このアプローチのプロトタイプを作成しました。
私たちは 102 の異なるコンピューター支援証明戦略を作成し、各モデルの境界の長さと厳しさを評価します。
定量的メトリクスを使用すると、証明が短いほど、より多くのメカニズムの理解を必要とし、提供できることがわかります。
さらに、メカニズムをより忠実に理解すると、パフォーマンスの限界がより厳しくなることがわかりました。
証明のサブセットを定性的に検査することで、これらの関連性を確認します。
最後に、構造のないノイズの複合化が、機構の解釈可能性を使用してモデルのパフォーマンスに関するコンパクトな証明を生成するための重要な課題であることを特定します。
要約(オリジナル)
In this work, we propose using mechanistic interpretability — techniques for reverse engineering model weights into human-interpretable algorithms — to derive and compactly prove formal guarantees on model performance. We prototype this approach by formally proving lower bounds on the accuracy of 151 small transformers trained on a Max-of-$K$ task. We create 102 different computer-assisted proof strategies and assess their length and tightness of bound on each of our models. Using quantitative metrics, we find that shorter proofs seem to require and provide more mechanistic understanding. Moreover, we find that more faithful mechanistic understanding leads to tighter performance bounds. We confirm these connections by qualitatively examining a subset of our proofs. Finally, we identify compounding structureless noise as a key challenge for using mechanistic interpretability to generate compact proofs on model performance.
arxiv情報
著者 | Jason Gross,Rajashree Agrawal,Thomas Kwa,Euan Ong,Chun Hei Yip,Alex Gibson,Soufiane Noubir,Lawrence Chan |
発行日 | 2024-06-18 12:36:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google