From Pixels to Words: Leveraging Explainability in Face Recognition through Interactive Natural Language Processing


顔認識 (FR) はディープラーニングの発展により大幅に進歩し、いくつかのアプリケーションで高い精度を達成しました。
本研究では、モデルに依存しない説明可能な人工知能 (XAI) と自然言語処理 (NLP) 技術を組み合わせることにより、FR モデルの説明可能性を高める対話型フレームワークを提案します。
特に、私たちが提案する方法によって生成される説明は、自然言語テキストと視覚的表現の形式であり、たとえば、異なる顔領域が 2 つの顔間の類似性の尺度にどのように寄与するかを説明できます。
これは、顔画像の出力の顕著性ヒートマップと BERT 質問応答モデルの自動分析によって実現され、FR の決定を包括的に理解できるインターフェイスをユーザーに提供します。
私たちはさまざまな実験を通じてこの方法の有効性を実証し、特に意思決定の透明性が重要である機密性の高いアプリケーションにおいて、FR システムをより解釈可能でユーザーフレンドリーにするその可能性を強調します。


Face Recognition (FR) has advanced significantly with the development of deep learning, achieving high accuracy in several applications. However, the lack of interpretability of these systems raises concerns about their accountability, fairness, and reliability. In the present study, we propose an interactive framework to enhance the explainability of FR models by combining model-agnostic Explainable Artificial Intelligence (XAI) and Natural Language Processing (NLP) techniques. The proposed framework is able to accurately answer various questions of the user through an interactive chatbot. In particular, the explanations generated by our proposed method are in the form of natural language text and visual representations, which for example can describe how different facial regions contribute to the similarity measure between two faces. This is achieved through the automatic analysis of the output’s saliency heatmaps of the face images and a BERT question-answering model, providing users with an interface that facilitates a comprehensive understanding of the FR decisions. The proposed approach is interactive, allowing the users to ask questions to get more precise information based on the user’s background knowledge. More importantly, in contrast to previous studies, our solution does not decrease the face recognition performance. We demonstrate the effectiveness of the method through different experiments, highlighting its potential to make FR systems more interpretable and user-friendly, especially in sensitive applications where decision-making transparency is crucial.


著者 Ivan DeAndres-Tame,Muhammad Faisal,Ruben Tolosana,Rouqaiah Al-Refai,Ruben Vera-Rodriguez,Philipp Terhörst
発行日 2024-09-24 13:40:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク