Enhancing Romanian Offensive Language Detection through Knowledge Distillation, Multi-Task Learning, and Data Augmentation

要約

この論文では、人工知能における自然言語処理 (NLP) の重要性を強調し、人間の言語の理解とモデリングにおけるその重要な役割を強調します。
NLP、特に会話型ボットの最近の進歩は、開発者の間で大きな注目を集め、採用されています。
このペーパーでは、より小型で効率的な NLP モデルを実現するための高度な方法論を検討します。
具体的には、次の 3 つの主要なアプローチを採用しています。(1) 不快な言葉を検出するために Transformer ベースのニューラル ネットワークをトレーニングする、(2) データ拡張と知識蒸留技術を採用してパフォーマンスを向上させる、(3​​) マルチタスク学習と知識蒸留を組み込む、
効率を高めるために多様なデータセットを使用した教師アニーリング。
これらの方法の集大成により、明らかに改善された結果が得られました。

要約(オリジナル)

This paper highlights the significance of natural language processing (NLP) within artificial intelligence, underscoring its pivotal role in comprehending and modeling human language. Recent advancements in NLP, particularly in conversational bots, have garnered substantial attention and adoption among developers. This paper explores advanced methodologies for attaining smaller and more efficient NLP models. Specifically, we employ three key approaches: (1) training a Transformer-based neural network to detect offensive language, (2) employing data augmentation and knowledge distillation techniques to increase performance, and (3) incorporating multi-task learning with knowledge distillation and teacher annealing using diverse datasets to enhance efficiency. The culmination of these methods has yielded demonstrably improved outcomes.

arxiv情報

著者 Vlad-Cristian Matei,Iulian-Marius Tăiatu,Răzvan-Alexandru Smădu,Dumitru-Clementin Cercel
発行日 2024-09-30 16:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク