Counter Turing Test ($CT^2$): Investigating AI-Generated Text Detection for Hindi — Ranking LLMs based on Hindi AI Detectability Index ($ADI_{hi}$)

要約

大規模言語モデル (LLM) の普及と多言語 LLM に関する意識の高まりにより、AI が生成したテキストの誤用に関連する潜在的なリスクと影響に関する懸念が生じており、警戒を強化する必要があります。
これらのモデルは主に英語向けにトレーニングされていますが、Web のほぼ全体をカバーする膨大なデータセットに対する広範なトレーニングにより、他の多数の言語でも適切に実行できる機能が備わっています。
AI 生成テキスト検出 (AGTD) は、研究においてすでにすぐに注目を集めているトピックとして浮上しており、いくつかの初期手法が提案されており、すぐに検出をバイパスする技術が登場しました。
この論文では、インド系言語ヒンディー語の AGTD に関する調査について報告します。
私たちの主な貢献は 4 つあります: i) 26 の LLM を調査してヒンディー語テキスト生成の習熟度を評価しました。ii) AI が生成したヒンディー語のニュース記事 ($AG_{hi}$) データセットを紹介しました。iii) 5 つの LLM の有効性を評価しました。
最近提案された AGTD 手法: AI で生成されたヒンディー語テキストを検出するための ConDA、J-Guard、RADAR、RAIDAR、および固有次元推定、iv) 進化する状況を理解するためのスペクトルを示す提案されたヒンディー語 AI 検出可能性インデックス ($ADI_{hi}$)
AI が生成したヒンディー語テキストの雄弁さ。
さらなる研究を促進するために、コードとデータセットを利用できるようにします。

要約(オリジナル)

The widespread adoption of large language models (LLMs) and awareness around multilingual LLMs have raised concerns regarding the potential risks and repercussions linked to the misapplication of AI-generated text, necessitating increased vigilance. While these models are primarily trained for English, their extensive training on vast datasets covering almost the entire web, equips them with capabilities to perform well in numerous other languages. AI-Generated Text Detection (AGTD) has emerged as a topic that has already received immediate attention in research, with some initial methods having been proposed, soon followed by the emergence of techniques to bypass detection. In this paper, we report our investigation on AGTD for an indic language Hindi. Our major contributions are in four folds: i) examined 26 LLMs to evaluate their proficiency in generating Hindi text, ii) introducing the AI-generated news article in Hindi ($AG_{hi}$) dataset, iii) evaluated the effectiveness of five recently proposed AGTD techniques: ConDA, J-Guard, RADAR, RAIDAR and Intrinsic Dimension Estimation for detecting AI-generated Hindi text, iv) proposed Hindi AI Detectability Index ($ADI_{hi}$) which shows a spectrum to understand the evolving landscape of eloquence of AI-generated text in Hindi. We will make the codes and datasets available to encourage further research.

arxiv情報

著者 Ishan Kavathekar,Anku Rani,Ashmit Chamoli,Ponnurangam Kumaraguru,Amit Sheth,Amitava Das
発行日 2024-07-22 15:00:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク