Who Wrote This? Identifying Machine vs Human-Generated Text in Hausa

要約

大規模な言語モデル(LLMS)の進歩により、コンテンツ生成を含むさまざまなタスクに習熟することができました。
ただし、規制されていない使用法は、特に低リソース言語では、盗作や偽のニュースの生成と広がりなどの悪意のある活動につながる可能性があります。
ほとんどの既存の機械で生成されたテキスト検出器は、英語、フランス語などの高リソース言語でトレーニングされています。この研究では、ハウサの人間と機械で生成されたコンテンツを区別できる最初の大規模検出器を開発しました。
人間が生成したテキストとGemini-2.0フラッシュモデルのために7つのHausa-Languageメディアアウトレットを廃棄して、人間が生成した記事の見出しに基づいて対応するHausa-Languageの記事を自動的に生成しました。
得られたデータセットで、4つの事前に訓練されたAFRI中心のモデル(Afriteva、Afriberta、AfroxlMR、およびAfroxlMR-76L)を微調整し、精度とF1スコアメトリックを使用してパフォーマンスを評価しました。
AFROXLMRは、精度99.23%とF1スコア99.21%で最高のパフォーマンスを達成し、HAUSAテキスト検出の有効性を示しました。
私たちのデータセットは、さらなる研究を可能にするために公開されています。

要約(オリジナル)

The advancement of large language models (LLMs) has allowed them to be proficient in various tasks, including content generation. However, their unregulated usage can lead to malicious activities such as plagiarism and generating and spreading fake news, especially for low-resource languages. Most existing machine-generated text detectors are trained on high-resource languages like English, French, etc. In this study, we developed the first large-scale detector that can distinguish between human- and machine-generated content in Hausa. We scrapped seven Hausa-language media outlets for the human-generated text and the Gemini-2.0 flash model to automatically generate the corresponding Hausa-language articles based on the human-generated article headlines. We fine-tuned four pre-trained Afri-centric models (AfriTeVa, AfriBERTa, AfroXLMR, and AfroXLMR-76L) on the resulting dataset and assessed their performance using accuracy and F1-score metrics. AfroXLMR achieved the highest performance with an accuracy of 99.23% and an F1 score of 99.21%, demonstrating its effectiveness for Hausa text detection. Our dataset is made publicly available to enable further research.

arxiv情報

著者 Babangida Sani,Aakansha Soy,Sukairaj Hafiz Imam,Ahmad Mustapha,Lukman Jibril Aliyu,Idris Abdulmumin,Ibrahim Said Ahmad,Shamsuddeen Hassan Muhammad
発行日 2025-03-17 12:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク