要約
最近、改ざんテキストの検出は、情報セキュリティにおける重要な役割によりますます注目を集めています。
既存の方法では改ざんされたテキスト領域を検出できますが、そのような検出の解釈は依然として不明瞭であり、予測の信頼性が低くなります。
この問題に対処するために、大規模なマルチモーダル モデルを介して自然言語による改ざんテキスト検出の基礎を説明することを提案します。
このタスクのデータギャップを埋めるために、大規模で包括的なデータセット ETTD を提案します。このデータセットには、改ざんされたテキスト領域のピクセルレベルの注釈と、改ざんされたテキストの異常を説明する自然言語注釈の両方が含まれています。
提案されたデータの品質を向上させるために、複数の方法が採用されています。
たとえば、GPT4o で高品質の異常説明を生成するために、精巧なクエリが導入されています。
異常の説明を生成するために GPT4o にクエリを実行する際の混乱を軽減するために、融合マスク プロンプトが提案されています。
低品質の注釈を自動的に除外するために、異常を説明する前に改ざんされたテキストを認識するように GPT4o に指示し、OCR 精度の低い応答を除外することも提案します。
説明可能な改ざんテキストの検出をさらに改善するために、TextSleuth と呼ばれるシンプルかつ効果的なモデルを提案します。このモデルは、2 段階の分析パラダイムと補助的なグラウンディング プロンプトを使用して、疑わしい領域に焦点を当てることで、きめの細かい認識とクロスドメインの一般化の向上を実現します。
ETTD データセットと公開データセットの両方に対する広範な実験により、提案された方法の有効性が検証されました。
さらなる研究を促すための詳細な分析も提供されます。
私たちのデータセットとコードはオープンソースになります。
要約(オリジナル)
Recently, tampered text detection has attracted increasing attention due to its essential role in information security. Although existing methods can detect the tampered text region, the interpretation of such detection remains unclear, making the prediction unreliable. To address this problem, we propose to explain the basis of tampered text detection with natural language via large multimodal models. To fill the data gap for this task, we propose a large-scale, comprehensive dataset, ETTD, which contains both pixel-level annotations for tampered text region and natural language annotations describing the anomaly of the tampered text. Multiple methods are employed to improve the quality of the proposed data. For example, elaborate queries are introduced to generate high-quality anomaly descriptions with GPT4o. A fused mask prompt is proposed to reduce confusion when querying GPT4o to generate anomaly descriptions. To automatically filter out low-quality annotations, we also propose to prompt GPT4o to recognize tampered texts before describing the anomaly, and to filter out the responses with low OCR accuracy. To further improve explainable tampered text detection, we propose a simple yet effective model called TextSleuth, which achieves improved fine-grained perception and cross-domain generalization by focusing on the suspected region, with a two-stage analysis paradigm and an auxiliary grounding prompt. Extensive experiments on both the ETTD dataset and the public dataset have verified the effectiveness of the proposed methods. In-depth analysis is also provided to inspire further research. Our dataset and code will be open-source.
arxiv情報
著者 | Chenfan Qu,Jian Liu,Haoxing Chen,Baihan Yu,Jingjing Liu,Weiqiang Wang,Lianwen Jin |
発行日 | 2025-01-15 16:54:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google