Rationale-Guided Few-Shot Classification to Detect Abusive Language

要約

暴言はオンライン ソーシャル メディアにおける憂慮すべき問題です。
暴言の検出に関する過去の研究は、さまざまなプラットフォーム、言語、人口統計などを対象としています。しかし、これらのデータセットを使用してトレーニングされたモデルは、クロスドメイン評価設定ではうまく機能しません。
これを克服するための一般的な戦略は、ターゲット ドメインからのいくつかのサンプルを使用してモデルをトレーニングし、そのドメインでのパフォーマンスを向上させることです (クロスドメインの少数ショット トレーニング)。
ただし、これにより、モデルがそれらのサンプルのアーティファクトに過剰適合する可能性があります。
説得力のある解決策は、理論的根拠、つまりテキストのラベルを正当化するテキストの範囲にモデルを導くことかもしれません。
この方法は、さまざまな NLP タスクにわたるドメイン内設定でのモデルのパフォーマンスを向上させることがわかっています。
この論文では、暴言検出のための RGFS (根拠に基づく少数ショット分類) を提案します。
まず、根拠、ターゲット、およびラベルを共同で学習するマルチタスク学習セットアップを構築し、根拠分類器のみをトレーニングした場合と比較して、根拠検出タスクでマクロ F1 が 6% という大幅な改善を確認しました。
私たちは、理論的根拠が統合された 2 つの BERT ベースのアーキテクチャ (RGFS モデル) を導入し、5 つの異なる虐待言語データセットにわたってシステムを評価しました。その結果、少数ショット分類設定では、RGFS ベースのモデルがマクロ F1 でベースライン モデルよりも約 7% 優れていることがわかりました。
他のソース ドメインで微調整されたモデルと競合するスコアを獲得し、パフォーマンスを向上させます。
さらに、RGFS ベースのモデルは、妥当性の点で LIME/SHAP ベースのアプローチよりも優れており、忠実性の点でパフォーマンスに近いです。

要約(オリジナル)

Abusive language is a concerning problem in online social media. Past research on detecting abusive language covers different platforms, languages, demographies, etc. However, models trained using these datasets do not perform well in cross-domain evaluation settings. To overcome this, a common strategy is to use a few samples from the target domain to train models to get better performance in that domain (cross-domain few-shot training). However, this might cause the models to overfit the artefacts of those samples. A compelling solution could be to guide the models toward rationales, i.e., spans of text that justify the text’s label. This method has been found to improve model performance in the in-domain setting across various NLP tasks. In this paper, we propose RGFS (Rationale-Guided Few-Shot Classification) for abusive language detection. We first build a multitask learning setup to jointly learn rationales, targets, and labels, and find a significant improvement of 6% macro F1 on the rationale detection task over training solely rationale classifiers. We introduce two rationale-integrated BERT-based architectures (the RGFS models) and evaluate our systems over five different abusive language datasets, finding that in the few-shot classification setting, RGFS-based models outperform baseline models by about 7% in macro F1 scores and perform competitively to models finetuned on other source domains. Furthermore, RGFS-based models outperform LIME/SHAP-based approaches in terms of plausibility and are close in performance in terms of faithfulness.

arxiv情報

著者 Punyajoy Saha,Divyanshu Sheth,Kushal Kedia,Binny Mathew,Animesh Mukherjee
発行日 2023-07-27 19:44:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク