IFAN: An Explainability-Focused Interaction Framework for Humans and NLP Models

要約

解釈可能性と人間による監視は、複雑な NLP モデルを現実世界のアプリケーションに展開するための基本的な柱です。
ただし、説明可能性と人間参加型の手法を適用するには、技術的な熟練度が必要です。
モデルの理解と分析のための既存のツールキットにもかかわらず、人間のフィードバックを統合するオプションはまだ限られています。
私たちは、NLP モデルとのリアルタイムの説明ベースの対話のためのフレームワークである IFAN を提案します。
IFAN のインターフェイスを通じて、ユーザーは選択したモデルの説明にフィードバックを提供できます。その後、その説明はアダプター層を介して統合され、モデルを人間の論理的根拠に合わせることができます。
このシステムが、パフォーマンスへの影響を最小限に抑えながらヘイトスピーチ分類器のバイアスを軽減するのに効果的であることを示します。
IFAN は、モデル (およびデータセット) を管理し、アクセス権を制御するためのビジュアル管理システムと API も提供します。
デモは https://ifan.ml で公開されています。

要約(オリジナル)

Interpretability and human oversight are fundamental pillars of deploying complex NLP models into real-world applications. However, applying explainability and human-in-the-loop methods requires technical proficiency. Despite existing toolkits for model understanding and analysis, options to integrate human feedback are still limited. We propose IFAN, a framework for real-time explanation-based interaction with NLP models. Through IFAN’s interface, users can provide feedback to selected model explanations, which is then integrated through adapter layers to align the model with human rationale. We show the system to be effective in debiasing a hate speech classifier with minimal impact on performance. IFAN also offers a visual admin system and API to manage models (and datasets) as well as control access rights. A demo is live at https://ifan.ml.

arxiv情報

著者 Edoardo Mosca,Daryna Dementieva,Tohid Ebrahim Ajdari,Maximilian Kummeth,Kirill Gringauz,Yutong Zhou,Georg Groh
発行日 2023-10-02 15:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク