Attention is Not Always What You Need: Towards Efficient Classification of Domain-Specific Text

要約

タイトル:Attention is Not Always What You Need: Towards Efficient Classification of Domain-Specific Text
– 「Attentionは常に必要ではない:ドメイン特化テキストの効率的な分類に向けて」

要約:
– 大規模なITコーパスには数百のクラスが階層的に組織化されており、階層の上位のクラスの正確な分類が重要であり、誤りが下位のレベルに伝播するのを防ぐためです。
– ビジネス界では、性能の向上が微々たる場合、高価なブラックボックスモデルよりも効率的で説明可能な機械学習モデルが好まれます。
– 自然言語処理(NLP)コミュニティでは、ほとんどすべてのNLPタスク(たとえば、質問応答、感情分析、テキスト分類)に対して、巨大なプリトレーニング言語モデル(PLMs)またはセルフアテンションモデル(BERTなど)を使用する傾向があります。
– しかし、PLMsの広範な使用と多様なNLPタスクでの印象的なパフォーマンスにも関わらず、ドメイン特化テキスト分類(TC)タスクにおいてなぜこれらのモデルが使用されている必要性が明確で正当化されていないため、専門用語(つまり、ジャーゴン)のmonosemicな性質により、コンテキスト埋め込み(例えば、PLMs)の目的が無意味になることがあります。
– 本論文では、文献で報告されたいくつかの最先端のモデルと線形SVM分類器およびTFIDFベクトル化モデルの3つのTCデータセットで正確性を比較し、線形SVMの性能が同等であることが示されています。
– この研究の結果は、ドメイン特化TCタスクにおいて、線形モデルはAttention-basedモデルに対して、同等かつ安価で再現性があり、解釈可能な代替手段を提供できることを示しています。

要約(オリジナル)

For large-scale IT corpora with hundreds of classes organized in a hierarchy, the task of accurate classification of classes at the higher level in the hierarchies is crucial to avoid errors propagating to the lower levels. In the business world, an efficient and explainable ML model is preferred over an expensive black-box model, especially if the performance increase is marginal. A current trend in the Natural Language Processing (NLP) community is towards employing huge pre-trained language models (PLMs) or what is known as self-attention models (e.g., BERT) for almost any kind of NLP task (e.g., question-answering, sentiment analysis, text classification). Despite the widespread use of PLMs and the impressive performance in a broad range of NLP tasks, there is a lack of a clear and well-justified need to as why these models are being employed for domain-specific text classification (TC) tasks, given the monosemic nature of specialized words (i.e., jargon) found in domain-specific text which renders the purpose of contextualized embeddings (e.g., PLMs) futile. In this paper, we compare the accuracies of some state-of-the-art (SOTA) models reported in the literature against a Linear SVM classifier and TFIDF vectorization model on three TC datasets. Results show a comparable performance for the LinearSVM. The findings of this study show that for domain-specific TC tasks, a linear model can provide a comparable, cheap, reproducible, and interpretable alternative to attention-based models.

arxiv情報

著者 Yasmen Wahba,Nazim Madhavji,John Steinbacher
発行日 2023-03-31 03:17:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク