AIDetx: a compression-based method for identification of machine-learning generated text

要約

このペーパーでは、データ圧縮技術を使用して機械生成テキストを検出する新しい方法である AIDetx を紹介します。
深層学習分類器などの従来のアプローチは、多くの場合、高い計算コストと限られた解釈可能性の問題を抱えています。
これらの制限に対処するために、有限コンテキスト モデル (FCM) を活用する圧縮ベースの分類フレームワークを提案します。
AIDetx は、人間が書いたテキストと AI が生成したテキストに対して個別の圧縮モデルを構築し、どちらのモデルがより高い圧縮率を達成するかに基づいて新しい入力を分類します。
2 つのベンチマーク データセットで AIDetx を評価し、それぞれ 97% と 99% を超える F1 スコアを達成し、その精度の高さを強調しました。
大規模言語モデル (LLM) などの現在の手法と比較して、AIDetx は、より解釈可能で計算効率の高いソリューションを提供し、トレーニング時間とハードウェア要件 (GPU が不要など) の両方を大幅に削減します。
完全な実装は https://github.com/AIDEtx/AIDEtx で公開されています。

要約(オリジナル)

This paper introduces AIDetx, a novel method for detecting machine-generated text using data compression techniques. Traditional approaches, such as deep learning classifiers, often suffer from high computational costs and limited interpretability. To address these limitations, we propose a compression-based classification framework that leverages finite-context models (FCMs). AIDetx constructs distinct compression models for human-written and AI-generated text, classifying new inputs based on which model achieves a higher compression ratio. We evaluated AIDetx on two benchmark datasets, achieving F1 scores exceeding 97% and 99%, respectively, highlighting its high accuracy. Compared to current methods, such as large language models (LLMs), AIDetx offers a more interpretable and computationally efficient solution, significantly reducing both training time and hardware requirements (e.g., no GPUs needed). The full implementation is publicly available at https://github.com/AIDetx/AIDetx.

arxiv情報

著者 Leonardo Almeida,Pedro Rodrigues,Diogo Magalhães,Armando J. Pinho,Diogo Pratas
発行日 2024-11-29 17:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク