要約
大規模に訓練され、強力なテキスト生成能力を備えた大規模な言語モデル(LLMS)の普及は、有害、有毒、偽造、または偽造コンテンツを生成するコストを削減することにより、生成的AI技術によってもたらされる脅威を大幅に増加させました。
これに応じて、人間が作成したテキストから人為的に生成された自動を自動的に区別するために、通常、問題を分類問題としてフレーミングするために、さまざまな提案がなされています。
ほとんどのアプローチでは、低プレキシティスコアが確実に信号機機関のコンテンツをスコア付けすると仮定して、適切に選択された検出器LLMによる入力ドキュメントを評価します。
1つの単一の検出器を使用すると、パフォーマンスの脆性性を誘発する可能性があるため、代わりにいくつかを検討し、それぞれの強度を組み合わせる新しい、理論的に根拠のあるアプローチを導き出します。
さまざまなジェネレーターLLMを使用した実験は、この方法が効果的に堅牢な検出性能につながることを示唆しています。
コードの初期バージョンは、https://github.com/baggerofwords/mosaicで入手できます。
要約(オリジナル)
The dissemination of Large Language Models (LLMs), trained at scale, and endowed with powerful text-generating abilities has vastly increased the threats posed by generative AI technologies by reducing the cost of producing harmful, toxic, faked or forged content. In response, various proposals have been made to automatically discriminate artificially generated from human-written texts, typically framing the problem as a classification problem. Most approaches evaluate an input document by a well-chosen detector LLM, assuming that low-perplexity scores reliably signal machine-made content. As using one single detector can induce brittleness of performance, we instead consider several and derive a new, theoretically grounded approach to combine their respective strengths. Our experiments, using a variety of generator LLMs, suggest that our method effectively leads to robust detection performances. An early version of the code is available at https://github.com/BaggerOfWords/MOSAIC.
arxiv情報
著者 | Matthieu Dubois,François Yvon,Pablo Piantanida |
発行日 | 2025-01-27 16:24:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google