A Comprehensive Framework for Semantic Similarity Detection Using Transformer Architectures and Enhanced Ensemble Techniques


AI によって生成されたテキスト、特にコンテキストの短いドキュメントの検出は、正確に分類するのに十分なコンテキストがないため困難です。
DeBERTa-v3-large と Mamba-790m を組み合わせた教師モデルは、ドメイン固有の微調整を通じて意味知識を学習します。
Student モデルは、短いコンテキストのテキストをより効率的に処理します。
このシステムは、平均二乗誤差 (MSE) 損失関数を使用して生徒の学習をガイドし、精度と効率の両方を向上させます。
実験結果では、このアプローチがベースライン手法よりもうまく機能することが示されており、リアルタイムの AI 生成テキスト検出やその他のテキスト分類タスクに有用であることが証明されています。


Detecting AI-generated text, especially in short-context documents, is difficult because there is not enough context for accurate classification. This paper presents a new teacher-student model that uses domain adaptation and data augmentation to solve these problems. The teacher model, which combines DeBERTa-v3-large and Mamba-790m, learns semantic knowledge through domain-specific fine-tuning. The student model handles short-context text more efficiently. The system uses a Mean Squared Error (MSE) loss function to guide the student’s learning, improving both accuracy and efficiency. Also, data augmentation methods like spelling correction and error injection make the model more robust. Experimental results show that this approach works better than baseline methods, proving its usefulness for real-time AI-generated text detection and other text classification tasks.


著者 Lifu Gao,Qi Zhang,Ziwei Liu
発行日 2025-01-24 07:07:37+00:00
