pyvene: A Library for Understanding and Improving PyTorch Models via Interventions

要約

モデルの内部状態への介入は、モデルの編集、ステアリング、ロバスト性、解釈可能性など、AI の多くの分野における基本的な操作です。
このような研究を促進するために、さまざまな PyTorch モジュールに対するカスタマイズ可能な介入をサポートするオープンソース Python ライブラリである $\textbf{pyvene}$ を導入します。
$\textbf{pyvene}$ は、直感的な構成形式で複雑な介入スキームをサポートしており、その介入は静的であることも、トレーニング可能なパラメーターを含むこともできます。
$\textbf{pyvene}$ が、ニューラル モデルに対して介入を実行し、介入されたモデルを他のモデルと共有するための統合された拡張可能なフレームワークをどのように提供するかを示します。
因果関係の抽象化と知識のローカリゼーションを使用した解釈可能性の分析を通じて、ライブラリの力を説明します。
私たちは Python Package Index (PyPI) を通じてライブラリを公開し、https://github.com/stanfordnlp/pyvene でコード、ドキュメント、チュートリアルを提供します。

要約(オリジナル)

Interventions on model-internal states are fundamental operations in many areas of AI, including model editing, steering, robustness, and interpretability. To facilitate such research, we introduce $\textbf{pyvene}$, an open-source Python library that supports customizable interventions on a range of different PyTorch modules. $\textbf{pyvene}$ supports complex intervention schemes with an intuitive configuration format, and its interventions can be static or include trainable parameters. We show how $\textbf{pyvene}$ provides a unified and extensible framework for performing interventions on neural models and sharing the intervened upon models with others. We illustrate the power of the library via interpretability analyses using causal abstraction and knowledge localization. We publish our library through Python Package Index (PyPI) and provide code, documentation, and tutorials at https://github.com/stanfordnlp/pyvene.

arxiv情報

著者 Zhengxuan Wu,Atticus Geiger,Aryaman Arora,Jing Huang,Zheng Wang,Noah D. Goodman,Christopher D. Manning,Christopher Potts
発行日 2024-03-12 16:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク