When a Language Question Is at Stake. A Revisited Approach to Label Sensitive Content

要約

リソースが不足している言語の多くは、攻撃的な言語の検出、偽情報、または誤った情報の特定などの特定のタスクのために高品質のデータセットを必要とします。
ただし、コンテンツの複雑さはアノテーターに悪影響を与える可能性があります。
この記事は、ロシア・ウクライナ戦争を取り上げたウクライナ人のツイートを例に、機密データに疑似ラベルを付けるアプローチを再検討することを目的としている。
現在、この深刻な問題は、ソーシャル メディア プラットフォーム上で多数の偽情報や冒涜を引き起こすさまざまな言語操作として注目を集めています。
実施された実験では、データ アノテーションの 3 つの主要な段階に焦点が当てられ、機械によるアノテーションの際の主な障害が強調されています。
最終的には、取得したデータの基本的な統計分析、擬似ラベル付けに使用されるモデルの評価を提供し、科学者がコーパスを活用してより高度な研究を実行し、アノテーターの介入なしに既存のデータ サンプルを拡張する方法に関するさらなるガイドラインを設定します。

要約(オリジナル)

Many under-resourced languages require high-quality datasets for specific tasks such as offensive language detection, disinformation, or misinformation identification. However, the intricacies of the content may have a detrimental effect on the annotators. The article aims to revisit an approach of pseudo-labeling sensitive data on the example of Ukrainian tweets covering the Russian-Ukrainian war. Nowadays, this acute topic is in the spotlight of various language manipulations that cause numerous disinformation and profanity on social media platforms. The conducted experiment highlights three main stages of data annotation and underlines the main obstacles during machine annotation. Ultimately, we provide a fundamental statistical analysis of the obtained data, evaluation of models used for pseudo-labelling, and set further guidelines on how the scientists can leverage the corpus to execute more advanced research and extend the existing data samples without annotators’ engagement.

arxiv情報

著者 Stetsenko Daria
発行日 2023-11-17 13:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク