Inseq: An Interpretability Toolkit for Sequence Generation Models

要約

タイトル:Inseq:シーケンス生成モデルの解釈性ツールキット

要約:

– 自然言語処理における解釈性の過去の研究は、主に一般的な分類タスクに集中しており、専用のツールが欠如しているために生成設定を大きく見逃していました。
– この研究では、シーケンス生成モデルの解釈可能性分析にアクセスしやすくするためにInseqというPythonライブラリを紹介しています。
– Inseqは、一般的なデコーダーのみおよびエンコーダーデコーダーTransformersアーキテクチャのモデルの内部情報と特徴重要度スコアの直感的かつ最適化された抽出を実現します。
– 機械翻訳モデルのジェンダーバイアスを強調するためにそれを採用することで、GPT-2内の事実知識を特定することで、その潜在能力を紹介しています。
– コントラスト特徴帰属などの最新の技術をサポートする拡張可能なインターフェースを備えたInseqは、説明可能な自然言語生成の将来の進歩を促進し、良い実践を集約し、公正かつ再現可能なモデル評価を実現します。

要約(オリジナル)

Past work in natural language processing interpretability focused mainly on popular classification tasks while largely overlooking generation settings, partly due to a lack of dedicated tools. In this work, we introduce Inseq, a Python library to democratize access to interpretability analyses of sequence generation models. Inseq enables intuitive and optimized extraction of models’ internal information and feature importance scores for popular decoder-only and encoder-decoder Transformers architectures. We showcase its potential by adopting it to highlight gender biases in machine translation models and locate factual knowledge inside GPT-2. Thanks to its extensible interface supporting cutting-edge techniques such as contrastive feature attribution, Inseq can drive future advances in explainable natural language generation, centralizing good practices and enabling fair and reproducible model evaluations.

arxiv情報

著者 Gabriele Sarti,Nils Feldhus,Ludwig Sickert,Oskar van der Wal,Malvina Nissim,Arianna Bisazza
発行日 2023-04-14 15:29:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク