Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive Language Detection

要約

高リソース言語から中・低リソース言語への言語間伝達学習は、有望な結果を示している。しかし、ターゲット言語のリソース不足は依然として課題である。本研究では、言語横断的な濫用言語検出を改善するために、データ増強とドメイン適応のための継続的な事前学習に頼る。データ増強のために、我々は、近傍リスク最小化に基づく2つの既存技術を分析し、それらの表現の角度に基づいてインスタンスのペアを補間する新しいデータ増強法であるMIXAGを提案する。我々の実験では、英語とは異なる7つの言語と3つの異なるドメインについて実験を行った。その結果、データ補強戦略により、少数ショットの言語横断的な濫用言語検出を強化できることが明らかになった。具体的には、全てのターゲット言語において、MIXAGは多ドメイン、多言語環境において有意に改善することが確認された。最後に、我々はエラー分析を通じて、ドメイン適応がどのように濫用テキストのクラスを有利にするか(偽陰性を減らす)を示すが、同時に濫用言語検出モデルの精度を低下させる。

要約(オリジナル)

Cross-lingual transfer learning from high-resource to medium and low-resource languages has shown encouraging results. However, the scarcity of resources in target languages remains a challenge. In this work, we resort to data augmentation and continual pre-training for domain adaptation to improve cross-lingual abusive language detection. For data augmentation, we analyze two existing techniques based on vicinal risk minimization and propose MIXAG, a novel data augmentation method which interpolates pairs of instances based on the angle of their representations. Our experiments involve seven languages typologically distinct from English and three different domains. The results reveal that the data augmentation strategies can enhance few-shot cross-lingual abusive language detection. Specifically, we observe that consistently in all target languages, MIXAG improves significantly in multidomain and multilingual environments. Finally, we show through an error analysis how the domain adaptation can favour the class of abusive texts (reducing false negatives), but at the same time, declines the precision of the abusive language detection model.

arxiv情報

著者 Gretel Liz De la Peña Sarracén,Paolo Rosso,Robert Litschko,Goran Glavaš,Simone Paolo Ponzetto
発行日 2023-11-03 16:51:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク