要約
Transformer ベースの言語モデルは、幅広い NLP タスクにわたって新しいベンチマークを設定しましたが、予測の不確実性を確実に推定することは依然として大きな課題です。
既存の不確実性推定 (UE) 手法は、基本的なヒューリスティックに対する最小限の改善しか提供していないか、コストのかかるアンサンブル モデルに依存しているため、分類タスクでは不十分なことがよくあります。
さらに、線形プローブ シナリオで UE に共通の埋め込みを活用する試みでは、わずかな利益しか得られておらず、代替モデル コンポーネントを検討する必要があることが示されています。
私たちは、複数のヘッドとレイヤーにわたるアテンション マップのジオメトリを利用してモデルの信頼性を評価することで、これらの制限に取り組みます。
私たちのアプローチは、アテンション行列からトポロジカルな特徴を抽出し、モデルの内部ダイナミクスの低次元で解釈可能な表現を提供します。
さらに、トポロジカルな特徴を導入して、頭や層全体の注意パターンを比較します。
私たちの方法は、許容性の判断と人工テキスト検出のベンチマークにおいて既存の UE 技術を大幅に上回り、大規模な言語モデルにおける不確実性推定のためのより効率的で解釈可能なソリューションを提供します。
要約(オリジナル)
Transformer-based language models have set new benchmarks across a wide range of NLP tasks, yet reliably estimating the uncertainty of their predictions remains a significant challenge. Existing uncertainty estimation (UE) techniques often fall short in classification tasks, either offering minimal improvements over basic heuristics or relying on costly ensemble models. Moreover, attempts to leverage common embeddings for UE in linear probing scenarios have yielded only modest gains, indicating that alternative model components should be explored. We tackle these limitations by harnessing the geometry of attention maps across multiple heads and layers to assess model confidence. Our approach extracts topological features from attention matrices, providing a low-dimensional, interpretable representation of the model’s internal dynamics. Additionally, we introduce topological features to compare attention patterns across heads and layers. Our method significantly outperforms existing UE techniques on benchmarks for acceptability judgments and artificial text detection, offering a more efficient and interpretable solution for uncertainty estimation in large-scale language models.
arxiv情報
著者 | Elizaveta Kostenok,Daniil Cherniavskii,Alexey Zaytsev |
発行日 | 2024-09-17 09:44:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google