The Arabic AI Fingerprint: Stylometric Analysis and Detection of Large Language Models Text

要約

大規模な言語モデル(LLM)は、人間のようなテキストを生成する際に前例のない能力を達成し、教育、ソーシャルメディア、学界などの重要なドメイン間の情報整合性に微妙でありながら重要な課題をもたらし、洗練された誤った情報キャンペーンを可能にし、医療ガイダンスの妥協を可能にし、標的宣伝を促進します。
この課題は、特にアラビア語のような探求不足の低リソース言語では深刻になります。
この論文では、アカデミック、ソーシャルメディアのドメインにおける多様なモデルアーキテクチャ(Allam、Jais、Llama、およびGPT-4)にわたって、アラビア語の機械製テキストの包括的な調査(タイトルのみ、コンテンツ認識、およびテキスト洗練)を調べます。
私たちの定型分析は、これらのさまざまなコンテキスト全体で、機械で作られたアラビア語のテキストと人間が書かれた特徴的な言語パターンを明らかにしています。
それらの人間のような性質にもかかわらず、LLMはアラビア語の出力で検出可能な署名を生成することを実証します。
これらの洞察に基づいて、モデルアーキテクチャ全体で強力な精度で正式なコンテキスト(最大99.9 \%F1スコア)で並外れたパフォーマンスを達成するBERTベースの検出モデルを開発しました。
私たちのクロスドメイン分析は、以前に文献で報告された一般化の課題を確認しています。
私たちの知る限り、この作業は、これまでのアラビア語の機械で生成されたテキストの最も包括的な調査を表しています。複数の迅速な生成方法、多様なモデルアーキテクチャ、およびさまざまなテキストドメイン全体での詳細なスタイロメトリック分析を一意に組み合わせて、アラビア語の文脈に積極的に積極的に設計された検出システムを開発するための基礎を確立します。

要約(オリジナル)

Large Language Models (LLMs) have achieved unprecedented capabilities in generating human-like text, posing subtle yet significant challenges for information integrity across critical domains, including education, social media, and academia, enabling sophisticated misinformation campaigns, compromising healthcare guidance, and facilitating targeted propaganda. This challenge becomes severe, particularly in under-explored and low-resource languages like Arabic. This paper presents a comprehensive investigation of Arabic machine-generated text, examining multiple generation strategies (generation from the title only, content-aware generation, and text refinement) across diverse model architectures (ALLaM, Jais, Llama, and GPT-4) in academic, and social media domains. Our stylometric analysis reveals distinctive linguistic patterns differentiating human-written from machine-generated Arabic text across these varied contexts. Despite their human-like qualities, we demonstrate that LLMs produce detectable signatures in their Arabic outputs, with domain-specific characteristics that vary significantly between different contexts. Based on these insights, we developed BERT-based detection models that achieved exceptional performance in formal contexts (up to 99.9\% F1-score) with strong precision across model architectures. Our cross-domain analysis confirms generalization challenges previously reported in the literature. To the best of our knowledge, this work represents the most comprehensive investigation of Arabic machine-generated text to date, uniquely combining multiple prompt generation methods, diverse model architectures, and in-depth stylometric analysis across varied textual domains, establishing a foundation for developing robust, linguistically-informed detection systems essential for preserving information integrity in Arabic-language contexts.

arxiv情報

著者 Maged S. Al-Shaibani,Moataz Ahmed
発行日 2025-06-04 15:16:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク