Uncertainty Estimation of Transformers’ Predictions via Topological Analysis of the Attention Matrices

要約

深層学習モデルの予測の信頼度を決定することは、自然言語処理の分野における未解決の問題です。
不確実性を推定するための古典的な方法のほとんどは、テキスト分類モデルに対して非常に弱いです。
Transformer アーキテクチャに基づいてニューラル ネットワークの不確実性の推定値を取得するタスクを設定しました。
このようなモデルの重要な特徴は、ニューラル ネットワーク内のトークンの隠れた表現間の情報の流れをサポートするアテンション メカニズムです。
トポロジカル データ分析手法を使用して内部表現間に形成された関係を調査し、それらをモデルの信頼性の予測に利用します。
本稿では、注意メカニズムのトポロジカル特性に基づいて不確実性を推定する方法を提案し、それを古典的な方法と比較します。
その結果、提案されたアルゴリズムは品質の点で既存の方法を上回り、アテンションメカニズムの新しい応用分野を切り開きますが、トポロジカルな特徴の選択が必要です。

要約(オリジナル)

Determining the degree of confidence of deep learning model in its prediction is an open problem in the field of natural language processing. Most of the classical methods for uncertainty estimation are quite weak for text classification models. We set the task of obtaining an uncertainty estimate for neural networks based on the Transformer architecture. A key feature of such mo-dels is the attention mechanism, which supports the information flow between the hidden representations of tokens in the neural network. We explore the formed relationships between internal representations using Topological Data Analysis methods and utilize them to predict model’s confidence. In this paper, we propose a method for uncertainty estimation based on the topological properties of the attention mechanism and compare it with classical methods. As a result, the proposed algorithm surpasses the existing methods in quality and opens up a new area of application of the attention mechanism, but requires the selection of topological features.

arxiv情報

著者 Elizaveta Kostenok,Daniil Cherniavskii,Alexey Zaytsev
発行日 2024-09-16 15:41:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク