Enhancing Romanian Offensive Language Detection through Knowledge Distillation, Multi-Task Learning, and Data Augmentation


この論文では、人工知能における自然言語処理 (NLP) の重要性を強調し、人間の言語の理解とモデリングにおけるその重要な役割を強調します。
このペーパーでは、より小型で効率的な NLP モデルを実現するための高度な方法論を検討します。
具体的には、次の 3 つの主要なアプローチを採用しています。(1) 不快な言葉を検出するために Transformer ベースのニューラル ネットワークをトレーニングする、(2) データ拡張と知識蒸留技術を採用してパフォーマンスを向上させる、(3​​) マルチタスク学習と知識蒸留を組み込む、


This paper highlights the significance of natural language processing (NLP) within artificial intelligence, underscoring its pivotal role in comprehending and modeling human language. Recent advancements in NLP, particularly in conversational bots, have garnered substantial attention and adoption among developers. This paper explores advanced methodologies for attaining smaller and more efficient NLP models. Specifically, we employ three key approaches: (1) training a Transformer-based neural network to detect offensive language, (2) employing data augmentation and knowledge distillation techniques to increase performance, and (3) incorporating multi-task learning with knowledge distillation and teacher annealing using diverse datasets to enhance efficiency. The culmination of these methods has yielded demonstrably improved outcomes.


著者 Vlad-Cristian Matei,Iulian-Marius Tăiatu,Răzvan-Alexandru Smădu,Dumitru-Clementin Cercel
発行日 2024-09-30 16:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク