Increasing the Robustness of the Fine-tuned Multilingual Machine-Generated Text Detectors

要約

LLMの増殖以来、有害なコンテンツの作成と拡散に対する誤用について懸念がありました。
最近の研究は、そのような恐怖を正当化し、LLMの脆弱性と彼らの誤用の高い可能性の証拠を提供します。
人間は、高品質の機械で生成された人間が書いたテキストを区別することができなくなりました。
したがって、機械で生成されたコンテンツを正確に検出するための自動化された手段を開発することが重要です。
オンライン情報分野でそのようなコンテンツを識別することができるため、その信頼性に関する追加情報が提供されます。
この作業は、検出タスクのためにLLMSの堅牢な微調整プロセスを提案し、検出器を難読化に対してより堅牢にし、分散排出データに対してより一般化しやすくすることにより、問題に対処します。

要約(オリジナル)

Since the proliferation of LLMs, there have been concerns about their misuse for harmful content creation and spreading. Recent studies justify such fears, providing evidence of LLM vulnerabilities and high potential of their misuse. Humans are no longer able to distinguish between high-quality machine-generated and authentic human-written texts. Therefore, it is crucial to develop automated means to accurately detect machine-generated content. It would enable to identify such content in online information space, thus providing an additional information about its credibility. This work addresses the problem by proposing a robust fine-tuning process of LLMs for the detection task, making the detectors more robust against obfuscation and more generalizable to out-of-distribution data.

arxiv情報

著者 Dominik Macko,Robert Moro,Ivan Srba
発行日 2025-03-19 11:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク