要約
このペーパーでは、LTEDI@RANLP-2023 共有タスクの一部として開発されたマルチクラス分類システムについて説明します。
BERT ベースの言語モデルを使用して、英語、スペイン語、ヒンディー語、マラヤーラム語、タミル語の 5 つの言語条件にわたってソーシャル メディア コメント内の同性愛嫌悪およびトランス嫌悪のコンテンツを検出しました。
私たちは、空間的および時間的に関連するソーシャル メディア言語データを使用して、トランスフォーマー ベースの言語間事前トレーニング済み言語モデル XLMRoBERTa を再トレーニングしました。
また、さまざまなパフォーマンスを持つシミュレートされたスクリプトと混合ソーシャル メディア言語データを使用して、モデルのサブセットを再トレーニングしました。
私たちは、重み付けされたマクロ平均 F1 スコア (6 つ中 1 位) に基づいて、他の言語およびクラスラベル条件に対する可変パフォーマンスを備えた、マラヤーラム語で最もパフォーマンスの高い 7 ラベル分類システムを開発しました。
この時空間データを含めることで、ベースラインと比較して、すべての言語およびタスク条件の分類パフォーマンスが向上することがわかりました。
この結果は、トランスフォーマーベースの言語分類システムがレジスタ固有および言語固有の再トレーニングの影響を受けやすいことを示唆しています。
要約(オリジナル)
This paper describes our multiclass classification system developed as part of the LTEDI@RANLP-2023 shared task. We used a BERT-based language model to detect homophobic and transphobic content in social media comments across five language conditions: English, Spanish, Hindi, Malayalam, and Tamil. We retrained a transformer-based crosslanguage pretrained language model, XLMRoBERTa, with spatially and temporally relevant social media language data. We also retrained a subset of models with simulated script-mixed social media language data with varied performance. We developed the best performing seven-label classification system for Malayalam based on weighted macro averaged F1 score (ranked first out of six) with variable performance for other language and class-label conditions. We found the inclusion of this spatio-temporal data improved the classification performance for all language and task conditions when compared with the baseline. The results suggests that transformer-based language classification systems are sensitive to register-specific and language-specific retraining.
arxiv情報
著者 | Sidney G. -J. Wong,Matthew Durward,Benjamin Adams,Jonathan Dunn |
発行日 | 2023-08-25 01:41:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google