Inseq: An Interpretability Toolkit for Sequence Generation Models

要約

自然言語処理の解釈可能性に関する過去の研究は、主に一般的な分類タスクに焦点を当てていましたが、専用のツールが不足していることもあり、生成設定はほとんど見過ごされていました。
この作業では、シーケンス生成モデルの解釈可能性分析へのアクセスを民主化するための Python ライブラリである Inseq を紹介します。
Inseq を使用すると、一般的なデコーダーのみおよびエンコーダー/デコーダーの Transformers アーキテクチャーのモデルの内部情報と特徴重要度スコアを直感的かつ最適化して抽出できます。
機械翻訳モデルのジェンダーバイアスを強調し、GPT-2内の事実に関する知識を見つけるために採用することで、その可能性を紹介します.
Inseq は、対照的な特徴の帰属などの最先端の技術をサポートする拡張可能なインターフェイスのおかげで、説明可能な自然言語生成の将来の進歩を推進し、優れたプラクティスを一元化し、公正で再現可能なモデル評価を可能にします。

要約(オリジナル)

Past work in natural language processing interpretability focused mainly on popular classification tasks while largely overlooking generation settings, partly due to a lack of dedicated tools. In this work, we introduce Inseq, a Python library to democratize access to interpretability analyses of sequence generation models. Inseq enables intuitive and optimized extraction of models’ internal information and feature importance scores for popular decoder-only and encoder-decoder Transformers architectures. We showcase its potential by adopting it to highlight gender biases in machine translation models and locate factual knowledge inside GPT-2. Thanks to its extensible interface supporting cutting-edge techniques such as contrastive feature attribution, Inseq can drive future advances in explainable natural language generation, centralizing good practices and enabling fair and reproducible model evaluations.

arxiv情報

著者 Gabriele Sarti,Nils Feldhus,Ludwig Sickert,Oskar van der Wal
発行日 2023-02-27 16:45:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク