Detecting Voice Phishing with Precision: Fine-Tuning Small Language Models

要約

代表的なオープンソースの小言語モデル(LM)であるLlama3を微調整することにより、音声フィッシング(VP)検出器を開発します。
プロンプトでは、慎重に設計されたVP評価基準を提供し、考え方(COT)手法を適用します。
LMSの堅牢性を評価し、パフォーマンスの違いを強調するために、モデルを困難な条件下に配置する敵対的なテストデータセットを構築します。
さらに、VP転写産物の欠如に対処するために、既存または新しいタイプのVP技術を参照することにより、転写産物を作成します。
評価基準が含まれている、COT技術が適用される、または両方が一緒に使用される場合を比較します。
実験では、我々の結果は、VP評価基準を含むプロンプトを含むデータセットで微調整されたLlama3-8Bモデルが小さなLMSで最高のパフォーマンスをもたらし、GPT-4ベースのVP検出器のそれに匹敵することを示しています。
これらの調査結果は、VP検出で小さなLMSにCOT技術を使用するよりも、人間の専門知識をプロンプトに組み込むことが効果的であることを示しています。

要約(オリジナル)

We develop a voice phishing (VP) detector by fine-tuning Llama3, a representative open-source, small language model (LM). In the prompt, we provide carefully-designed VP evaluation criteria and apply the Chain-of-Thought (CoT) technique. To evaluate the robustness of LMs and highlight differences in their performance, we construct an adversarial test dataset that places the models under challenging conditions. Moreover, to address the lack of VP transcripts, we create transcripts by referencing existing or new types of VP techniques. We compare cases where evaluation criteria are included, the CoT technique is applied, or both are used together. In the experiment, our results show that the Llama3-8B model, fine-tuned with a dataset that includes a prompt with VP evaluation criteria, yields the best performance among small LMs and is comparable to that of a GPT-4-based VP detector. These findings indicate that incorporating human expert knowledge into the prompt is more effective than using the CoT technique for small LMs in VP detection.

arxiv情報

著者 Ju Yong Sim,Seong Hwan Kim
発行日 2025-06-06 15:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク