Finding the Needle in a Haystack: Unsupervised Rationale Extraction from Long Text Classifiers

要約

ロング シーケンス トランスフォーマーは、言語モデルによる長いテキストの表現と、下流のドキュメント レベルのタスクでのパフォーマンスを向上させるように設計されています。
ただし、長い形式のモデルにおけるトークン レベルの予測の品質については、あまり理解されていません。
教師なしの根拠抽出によるドキュメント分類のコンテキストで、このようなアーキテクチャのパフォーマンスを調査します。
Longformer 言語モデルと組み合わせると、標準的なソフト アテンション メソッドのパフォーマンスが大幅に低下することがわかりました。
RoBERTa を文ごとに適用してトークンレベルでもっともらしい根拠を抽出する合成ソフトアテンションアーキテクチャを提案します。
この方法は、センチメント分類データセットで Longformer 主導のベースラインよりも大幅に優れていることがわかりますが、実行時間も大幅に短縮されます。

要約(オリジナル)

Long-sequence transformers are designed to improve the representation of longer texts by language models and their performance on downstream document-level tasks. However, not much is understood about the quality of token-level predictions in long-form models. We investigate the performance of such architectures in the context of document classification with unsupervised rationale extraction. We find standard soft attention methods to perform significantly worse when combined with the Longformer language model. We propose a compositional soft attention architecture that applies RoBERTa sentence-wise to extract plausible rationales at the token-level. We find this method to significantly outperform Longformer-driven baselines on sentiment classification datasets, while also exhibiting significantly lower runtimes.

arxiv情報

著者 Kamil Bujel,Andrew Caines,Helen Yannakoudakis,Marek Rei
発行日 2023-03-14 15:45:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク