IFAN: An Explainability-Focused Interaction Framework for Humans and NLP Models

要約

複雑なNLPモデルを実世界のアプリケーションに展開する上で、説明可能性と人間の監視は基本的な柱となる。しかし、説明可能性と人間による監視の手法を適用するには、技術的な熟練が必要です。モデルの理解と解析のためのツールキットが存在するにもかかわらず、人間のフィードバックを統合するオプションはまだ限られています。我々は、NLPモデルとのリアルタイムな説明ベースの対話のためのフレームワークであるIFANを提案する。IFANのインターフェースを通じて、ユーザーは選択したモデルの説明に対してフィードバックを提供することができ、そのフィードバックはアダプター層を通じて統合され、モデルと人間の理論的根拠を一致させる。このシステムは、ヘイトスピーチ分類器の性能低下を最小限に抑えながら、デビアスを行うのに効果的であることを示す。IFANは、モデル(およびデータセット)を管理し、アクセス権を制御するためのビジュアルな管理システムとAPIも提供しています。デモは https://ifan.ml/ で公開されています。

要約(オリジナル)

Interpretability and human oversight are fundamental pillars of deploying complex NLP models into real-world applications. However, applying explainability and human-in-the-loop methods requires technical proficiency. Despite existing toolkits for model understanding and analysis, options to integrate human feedback are still limited. We propose IFAN, a framework for real-time explanation-based interaction with NLP models. Through IFAN’s interface, users can provide feedback to selected model explanations, which is then integrated through adapter layers to align the model with human rationale. We show the system to be effective in debiasing a hate speech classifier with minimal performance loss. IFAN also offers a visual admin system and API to manage models (and datasets) as well as control access rights. A demo is live at https://ifan.ml/

arxiv情報

著者 Edoardo Mosca,Daryna Dementieva,Tohid Ebrahim Ajdari,Maximilian Kummeth,Kirill Gringauz,Georg Groh
発行日 2023-03-06 13:37:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク