要約
大規模言語モデル(LLM)がより人間に近いテキストを生成するにつれ、AIが生成したテキスト(AIGT)の副作用に対する懸念が高まっている。そこで研究者たちは、AIGTを検出する手法を開発してきた。しかし、2つの課題が残っている。第一に、既存のモデルは確率的特徴に焦点を当てているため、ブラックボックスLLMの検出性能は低い。第二に、ほとんどのAIGT検出器は単一候補の設定でテストされており、AIGTの起源が分かっていることを前提としているため、現実のシナリオと乖離している可能性がある。これらの課題を解決するために、我々は、言い換え、意味解析、スコアリング、多クラス分類の4つのステップからなるDARTを提案する。DARTの性能を検証するために3つの実験を行った。実験の結果、DARTは確率的特徴を持たない複数のブラックボックスLLMとAIGTの起源を識別できることが示された。
要約(オリジナル)
As large language models (LLMs) generate more human-like texts, concerns about the side effects of AI-generated texts (AIGT) have grown. So, researchers have developed methods for detecting AIGT. However, two challenges remain. First, the performance of detecting black-box LLMs is low because existing models focus on probabilistic features. Second, most AIGT detectors have been tested on a single-candidate setting, which assumes that we know the origin of an AIGT and which may deviate from the real-world scenario. To resolve these challenges, we propose DART, which consists of four steps: rephrasing, semantic parsing, scoring, and multiclass classification. We conducted three experiments to test the performance of DART. The experimental result shows that DART can discriminate multiple black-box LLMs without probabilistic features and the origin of AIGT.
arxiv情報
著者 | Hyeonchu Park,Byungjun Kim,Bugeun Kim |
発行日 | 2025-02-04 10:52:02+00:00 |
arxivサイト | arxiv_id(pdf) |