Provable Guarantees for Model Performance via Mechanistic Interpretability

要約

この研究では、機械的解釈可能性 (モデルの重みを人間が解釈可能なアルゴリズムにリバース エンジニアリングする手法) を使用して、モデルのパフォーマンスに関する正式な保証を導出し、コンパクトに証明することを提案します。
Max-of-$k$ タスクでトレーニングされた 151 個の小型トランスフォーマーの精度を正式に下限することにより、このアプローチのプロトタイプを作成しました。
私たちは 102 の異なるコンピューター支援証明戦略を作成し、各モデルの境界の長さと厳しさを評価します。
定量的なメトリクスを使用して、証明が短いほど、より多くの機構的理解を必要とし、それが得られるようであり、より忠実な機構的理解がより厳しいパフォーマンス限界につながることを示します。
証明のサブセットを定性的に検査することで、これらの関連性を確認します。
最後に、構造のないノイズの複合化が、機構の解釈可能性を使用してモデルのパフォーマンスに関するコンパクトな証明を生成するための重要な課題であることを特定します。

要約(オリジナル)

In this work, we propose using mechanistic interpretability — techniques for reverse engineering model weights into human-interpretable algorithms — to derive and compactly prove formal guarantees on model performance. We prototype this approach by formally lower bounding the accuracy of 151 small transformers trained on a Max-of-$k$ task. We create 102 different computer-assisted proof strategies and assess their length and tightness of bound on each of our models. Using quantitative metrics, we show that shorter proofs seem to require and provide more mechanistic understanding, and that more faithful mechanistic understanding leads to tighter performance bounds. We confirm these connections by qualitatively examining a subset of our proofs. Finally, we identify compounding structureless noise as a key challenge for using mechanistic interpretability to generate compact proofs on model performance.

arxiv情報

著者 Jason Gross,Rajashree Agrawal,Thomas Kwa,Euan Ong,Chun Hei Yip,Alex Gibson,Soufiane Noubir,Lawrence Chan
発行日 2024-06-17 17:34:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.LO パーマリンク