From Pixels to Words: Leveraging Explainability in Face Recognition through Interactive Natural Language Processing

要約

顔認識 (FR) はディープラーニングの発展により大幅に進歩し、いくつかのアプリケーションで高い精度を達成しました。
しかし、これらのシステムには解釈可能性が欠如しているため、その説明責任、公平性、信頼性について懸念が生じます。
本研究では、モデルに依存しない説明可能な人工知能 (XAI) と自然言語処理 (NLP) 技術を組み合わせることにより、FR モデルの説明可能性を高める対話型フレームワークを提案します。
提案されたフレームワークは、対話型チャットボットを通じてユーザーのさまざまな質問に正確に答えることができます。
特に、私たちが提案する方法によって生成される説明は、自然言語テキストと視覚的表現の形式であり、たとえば、異なる顔領域が 2 つの顔間の類似性の尺度にどのように寄与するかを説明できます。
これは、顔画像の出力の顕著性ヒートマップと BERT 質問応答モデルの自動分析によって実現され、FR の決定を包括的に理解できるインターフェイスをユーザーに提供します。
提案されたアプローチは対話型であり、ユーザーが質問して、ユーザーの背景知識に基づいてより正確な情報を得ることができます。
さらに重要なのは、以前の研究とは対照的に、私たちのソリューションは顔認識パフォーマンスを低下させないことです。
私たちはさまざまな実験を通じてこの方法の有効性を実証し、特に意思決定の透明性が重要である機密性の高いアプリケーションにおいて、FR システムをより解釈可能でユーザーフレンドリーにするその可能性を強調します。

要約(オリジナル)

Face Recognition (FR) has advanced significantly with the development of deep learning, achieving high accuracy in several applications. However, the lack of interpretability of these systems raises concerns about their accountability, fairness, and reliability. In the present study, we propose an interactive framework to enhance the explainability of FR models by combining model-agnostic Explainable Artificial Intelligence (XAI) and Natural Language Processing (NLP) techniques. The proposed framework is able to accurately answer various questions of the user through an interactive chatbot. In particular, the explanations generated by our proposed method are in the form of natural language text and visual representations, which for example can describe how different facial regions contribute to the similarity measure between two faces. This is achieved through the automatic analysis of the output’s saliency heatmaps of the face images and a BERT question-answering model, providing users with an interface that facilitates a comprehensive understanding of the FR decisions. The proposed approach is interactive, allowing the users to ask questions to get more precise information based on the user’s background knowledge. More importantly, in contrast to previous studies, our solution does not decrease the face recognition performance. We demonstrate the effectiveness of the method through different experiments, highlighting its potential to make FR systems more interpretable and user-friendly, especially in sensitive applications where decision-making transparency is crucial.

arxiv情報

著者 Ivan DeAndres-Tame,Muhammad Faisal,Ruben Tolosana,Rouqaiah Al-Refai,Ruben Vera-Rodriguez,Philipp Terhörst
発行日 2024-12-09 14:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク