CUE: An Uncertainty Interpretation Framework for Text Classifiers Built on Pre-Trained Language Models

要約

事前トレーニング済み言語モデル (PLM) に基づいて構築されたテキスト分類器は、感情分析、自然言語推論、質問応答などのさまざまなタスクにおいて目覚ましい進歩を遂げています。
ただし、これらの分類器による不確実な予測の発生により、実際のアプリケーションに導入した場合、その信頼性に課題が生じます。
PLM が何をキャプチャするかを理解するために、さまざまなプローブの設計に多大な努力が費やされてきました。
しかし、PLM ベースの分類器の予測の不確実性に影響を与える要因を詳しく調べた研究はほとんどありません。
この論文では、PLM ベースのモデルの予測に固有の不確実性を解釈することを目的とした、CUE と呼ばれる新しいフレームワークを提案します。
具体的には、まず、変分自動エンコーダを介して、PLM エンコードされた表現を潜在空間にマッピングします。
次に、予測の不確実性の変動を引き起こす潜在空間を摂動させることによってテキスト表現を生成します。
摂動されたテキスト表現と元のテキスト表現の間の予測不確実性の違いを比較することにより、不確実性の原因となる潜在的な次元を特定し、その後、そのような不確実性に寄与する入力特徴を追跡することができます。
言語受容性分類、感情分類、自然言語推論を含む 4 つのベンチマーク データセットに対する広範な実験により、提案したフレームワークの実現可能性が示されています。
ソース コードは https://github.com/lijiazheng99/CUE で入手できます。

要約(オリジナル)

Text classifiers built on Pre-trained Language Models (PLMs) have achieved remarkable progress in various tasks including sentiment analysis, natural language inference, and question-answering. However, the occurrence of uncertain predictions by these classifiers poses a challenge to their reliability when deployed in practical applications. Much effort has been devoted to designing various probes in order to understand what PLMs capture. But few studies have delved into factors influencing PLM-based classifiers’ predictive uncertainty. In this paper, we propose a novel framework, called CUE, which aims to interpret uncertainties inherent in the predictions of PLM-based models. In particular, we first map PLM-encoded representations to a latent space via a variational auto-encoder. We then generate text representations by perturbing the latent space which causes fluctuation in predictive uncertainty. By comparing the difference in predictive uncertainty between the perturbed and the original text representations, we are able to identify the latent dimensions responsible for uncertainty and subsequently trace back to the input features that contribute to such uncertainty. Our extensive experiments on four benchmark datasets encompassing linguistic acceptability classification, emotion classification, and natural language inference show the feasibility of our proposed framework. Our source code is available at: https://github.com/lijiazheng99/CUE.

arxiv情報

著者 Jiazheng Li,Zhaoyue Sun,Bin Liang,Lin Gui,Yulan He
発行日 2023-06-06 11:37:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク