Bridging the Gap: In-Context Learning for Modeling Human Disagreement

要約

大規模な言語モデル(LLM)は、NLP分類タスクで強力なパフォーマンスを示しています。
しかし、彼らは通常、多数派の投票を通じて集約されたラベルに依存しています。これは、主観的な注釈に固有の人間の意見の不一致を曖昧にする可能性があります。
この研究では、LLMが複数の視点をキャプチャできるかどうかを調べ、ヘイトスピーチや攻撃的な言語検出などの主観的なタスクにおける注釈者の意見の不一致を反映しています。
ゼロショットおよび少数のショット設定でコンテキスト内学習(ICL)を使用し、3つのラベルモデリング戦略の4つのオープンソースLLMを評価し、集約されたハードラベルとハードラベルとソフトラベルを分類します。
少数のショットプロンプトでは、テキストの類似性(BM25、PLMベース)、注釈の意見の不一致(エントロピー)、ランキングの組み合わせ、および秩序化戦略(ランダム対カリキュラムベース)に基づくデモンストレーション選択方法を評価します。
結果は、ゼロショット設定では多視系の生成が実行可能であることを示していますが、少数のショットセットアップでは、人間の判断の全範囲をキャプチャできないことがよくあります。
迅速な設計とデモンストレーションの選択は、パフォーマンスに特に影響を与えますが、順序の例は影響が限られています。
これらの調査結果は、LLMSで主観性をモデル化することの課題と、より視点を認識し、社会的にインテリジェントなモデルを構築することの重要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have shown strong performance on NLP classification tasks. However, they typically rely on aggregated labels-often via majority voting-which can obscure the human disagreement inherent in subjective annotations. This study examines whether LLMs can capture multiple perspectives and reflect annotator disagreement in subjective tasks such as hate speech and offensive language detection. We use in-context learning (ICL) in zero-shot and few-shot settings, evaluating four open-source LLMs across three label modeling strategies: aggregated hard labels, and disaggregated hard and soft labels. In few-shot prompting, we assess demonstration selection methods based on textual similarity (BM25, PLM-based), annotation disagreement (entropy), a combined ranking, and example ordering strategies (random vs. curriculum-based). Results show that multi-perspective generation is viable in zero-shot settings, while few-shot setups often fail to capture the full spectrum of human judgments. Prompt design and demonstration selection notably affect performance, though example ordering has limited impact. These findings highlight the challenges of modeling subjectivity with LLMs and the importance of building more perspective-aware, socially intelligent models.

arxiv情報

著者 Benedetta Muscato,Yue Li,Gizem Gezici,Zhixue Zhao,Fosca Giannotti
発行日 2025-06-06 14:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Bridging the Gap: In-Context Learning for Modeling Human Disagreement はコメントを受け付けていません

Unveiling Topological Structures from Language: A Comprehensive Survey of Topological Data Analysis Applications in NLP

要約

インターネット上で利用可能なデータの急増により、この豊富な情報から貴重な洞察を分析および抽出するためのさまざまな計算方法が採用されました。
これらの中で、機械学習の分野(ML)は、データを活用して意味のある洞察を抽出することで繁栄しています。
ただし、ML技術は、多くの場合、不均衡、騒音、ラベル不足、高次元の問題のために、実際のデータを扱う際に顕著な課題に直面しています。
これらの制限に対処するために、一部の研究者は、トポロジーデータ分析(TDA)の採用を提唱しています。これは、ノイズにもかかわらず、固有のデータの形状を目立たせる統計的アプローチです。
その可能性にもかかわらず、TDAは、コンピュータービジョンなどの構造的に異なる領域と比較して、自然言語処理(NLP)ドメイン内でそれほど多くの牽引力を獲得していません。
それにもかかわらず、研究者の献身的なコミュニティがNLPでのTDAの適用を調査しており、この論文で包括的に調査した95の論文を生み出しています。
私たちの調査結果は、これらの努力を理論的および非理論的アプローチに分類します。
理論的アプローチは、トポロジカルな観点から言語現象を説明することを目的としていますが、非理論的アプローチは、多様な数値表現技術を利用してTDAをML機能と統合します。
このニッチな分野で持続する課題と未解決の質問を探ることで結論を出します。
このトピックに関するリソースと論文のリストは、https://github.com/adauchendu/awesometda4nlpにあります。

要約(オリジナル)

The surge of data available on the internet has led to the adoption of various computational methods to analyze and extract valuable insights from this wealth of information. Among these, the field of Machine Learning (ML) has thrived by leveraging data to extract meaningful insights. However, ML techniques face notable challenges when dealing with real-world data, often due to issues of imbalance, noise, insufficient labeling, and high dimensionality. To address these limitations, some researchers advocate for the adoption of Topological Data Analysis (TDA), a statistical approach that discerningly captures the intrinsic shape of data despite noise. Despite its potential, TDA has not gained as much traction within the Natural Language Processing (NLP) domain compared to structurally distinct areas like computer vision. Nevertheless, a dedicated community of researchers has been exploring the application of TDA in NLP, yielding 95 papers we comprehensively survey in this paper. Our findings categorize these efforts into theoretical and non-theoretical approaches. Theoretical approaches aim to explain linguistic phenomena from a topological viewpoint, while non-theoretical approaches merge TDA with ML features, utilizing diverse numerical representation techniques. We conclude by exploring the challenges and unresolved questions that persist in this niche field. Resources and a list of papers on this topic can be found at: https://github.com/AdaUchendu/AwesomeTDA4NLP.

arxiv情報

著者 Adaku Uchendu,Thai Le
発行日 2025-06-06 14:40:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unveiling Topological Structures from Language: A Comprehensive Survey of Topological Data Analysis Applications in NLP はコメントを受け付けていません

Let’s CONFER: A Dataset for Evaluating Natural Language Inference Models on CONditional InFERence and Presupposition

要約

自然言語推論(NLI)は、文のペアが誘惑、矛盾、または中立的な関係を表すかどうかを判断するタスクです。
NLIモデルは多くの推論タスクでうまく機能しますが、微調整された実用的な推論、特に条件の前提を処理する能力は、採用されていないままです。
この研究では、NLIモデルが条件文の推論をどのように処理するかを評価するために設計された新しいデータセットであるConferを紹介します。
2つの事前に訓練されたモデルを含む4つのNLIモデルのパフォーマンスを評価して、条件付き推論への一般化を調べます。
さらに、GPT-4O、LLAMA、GEMMA、DeepSeek-R1を含む大規模な言語モデル(LLMS)をゼロショットおよび少数のショットプロンプト設定で評価して、事前のコンテキストの場合となしで前提条件を推測する能力を分析します。
我々の調査結果は、NLIモデルが条件の前提条件の推論と格闘しており、既存のNLIデータセットでの微調整が必​​ずしもパフォーマンスを改善しないことを示しています。

要約(オリジナル)

Natural Language Inference (NLI) is the task of determining whether a sentence pair represents entailment, contradiction, or a neutral relationship. While NLI models perform well on many inference tasks, their ability to handle fine-grained pragmatic inferences, particularly presupposition in conditionals, remains underexplored. In this study, we introduce CONFER, a novel dataset designed to evaluate how NLI models process inference in conditional sentences. We assess the performance of four NLI models, including two pre-trained models, to examine their generalization to conditional reasoning. Additionally, we evaluate Large Language Models (LLMs), including GPT-4o, LLaMA, Gemma, and DeepSeek-R1, in zero-shot and few-shot prompting settings to analyze their ability to infer presuppositions with and without prior context. Our findings indicate that NLI models struggle with presuppositional reasoning in conditionals, and fine-tuning on existing NLI datasets does not necessarily improve their performance.

arxiv情報

著者 Tara Azin,Daniel Dumitrescu,Diana Inkpen,Raj Singh
発行日 2025-06-06 14:42:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Let’s CONFER: A Dataset for Evaluating Natural Language Inference Models on CONditional InFERence and Presupposition はコメントを受け付けていません

Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models

要約

表の推論(TR)には、半構造化された表形式データに対する構造化された推論が必要であり、特に大規模なLMS(LLMS、GPT-4Oなど)と比較して容量が限られているため、特に小言語モデル(SLM、llama-8bなど)の場合は困難なままです。
このギャップを狭めるために、実行可能なプログラムを生成することにより、特に数値的推論でテキストベースのTR(T-TR)の重要な制限を回避するプログラムベースのTR(P-TR)を探索します。
ただし、P-TRをSLMSに適用すると、2つの課題が導入されます。(i)テーブルレイアウトの不均一性に対する脆弱性、および(ii)コード生成機能が限られているための推論における矛盾。
SLMS向けに設計された2段階のP-TRメソッドであるTable-R1を提案します。
ステージ1では、プログラムビューから表形式のレイアウト一般化を改善するために、革新的な自己監視学習タスク、レイアウト変換推論を紹介します。
ステージ2では、グループ相対ポリシーの最適化の混合パラダイムバリアントを採用し、必要に応じてダイナミックフォールバックをT-TRに動的にしながら、P-TRの一貫性を高めます。
4つのTRベンチマークでの実験は、Table-R1がすべてのSLMベースの方法よりも優れていることを示しており、すべてのデータセットでベースモデル(LLAMA-8B)よりも少なくとも15%の精度改善を達成し、LLMSとの競争力のあるパフォーマンスに到達します。

要約(オリジナル)

Table reasoning (TR) requires structured reasoning over semi-structured tabular data and remains challenging, particularly for small language models (SLMs, e.g., LLaMA-8B) due to their limited capacity compared to large LMs (LLMs, e.g., GPT-4o). To narrow this gap, we explore program-based TR (P-TR), which circumvents key limitations of text-based TR (T-TR), notably in numerical reasoning, by generating executable programs. However, applying P-TR to SLMs introduces two challenges: (i) vulnerability to heterogeneity in table layouts, and (ii) inconsistency in reasoning due to limited code generation capability. We propose Table-r1, a two-stage P-TR method designed for SLMs. Stage 1 introduces an innovative self-supervised learning task, Layout Transformation Inference, to improve tabular layout generalization from a programmatic view. Stage 2 adopts a mix-paradigm variant of Group Relative Policy Optimization, enhancing P-TR consistency while allowing dynamic fallback to T-TR when needed. Experiments on four TR benchmarks demonstrate that Table-r1 outperforms all SLM-based methods, achieving at least a 15% accuracy improvement over the base model (LLaMA-8B) across all datasets and reaching performance competitive with LLMs.

arxiv情報

著者 Rihui Jin,Zheyu Xin,Xing Xie,Zuoyi Li,Guilin Qi,Yongrui Chen,Xinbang Dai,Tongtong Wu,Gholamreza Haffari
発行日 2025-06-06 14:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models はコメントを受け付けていません

Towards Effective Extraction and Evaluation of Factual Claims

要約

大規模な言語モデル(LLMS)によって生成される長い形式のコンテンツを事実確認するための一般的な戦略は、独立して検証できる単純な主張を抽出することです。
不正確または不完全なクレームは、事実確認の結果を妥協するため、クレームの質が重要であることを確認します。
ただし、標準化された評価フレームワークの欠如は、評価とクレーム抽出方法の比較を妨げます。
このギャップに対処するために、事実チェックのコンテキストでクレーム抽出を評価するためのフレームワークを提案し、カバレッジと非文脈化を測定するための新しいアプローチを含む、このフレームワークを適用するための自動化されたスケーラブルで複製可能な方法を適用します。
また、LLMベースのクレーム抽出方法であるCrayifyを紹介し、評価フレームワークの下で既存の方法よりも優れていることを実証します。
請求の重要な特徴は、ソーステキストの正しい解釈に高い信頼がある場合にのみ、あいまいさを処理し、クレームを抽出する能力です。

要約(オリジナル)

A common strategy for fact-checking long-form content generated by Large Language Models (LLMs) is extracting simple claims that can be verified independently. Since inaccurate or incomplete claims compromise fact-checking results, ensuring claim quality is critical. However, the lack of a standardized evaluation framework impedes assessment and comparison of claim extraction methods. To address this gap, we propose a framework for evaluating claim extraction in the context of fact-checking along with automated, scalable, and replicable methods for applying this framework, including novel approaches for measuring coverage and decontextualization. We also introduce Claimify, an LLM-based claim extraction method, and demonstrate that it outperforms existing methods under our evaluation framework. A key feature of Claimify is its ability to handle ambiguity and extract claims only when there is high confidence in the correct interpretation of the source text.

arxiv情報

著者 Dasha Metropolitansky,Jonathan Larson
発行日 2025-06-06 15:08:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Effective Extraction and Evaluation of Factual Claims はコメントを受け付けていません

Masked Language Models are Good Heterogeneous Graph Generalizers

要約

不均一なグラフニューラルネットワーク(HGNNS)は、異種グラフ(HG)で構造情報とセマンティック情報をキャプチャすることに優れており、ドメインとタスクを介して一般化するのに苦労しています。
最近、一部の研究者は、より一般化可能な不均一なグラフ学習のために、HGNNを大規模な言語モデル(LLM)と統合することになりました。
ただし、これらのアプローチは通常、HGNNを介してHGトークンとして構造情報を抽出し、HGNNとLLMの間の埋め込みスペースの格差は、LLMのHGの理解にバイアスをかけることが示されています。
さらに、これらのHGトークンはしばしばノードレベルのタスクから派生しているため、タスク全体で一般化するモデルの能力は限られたままです。
この目的のために、MLM4HGと呼ばれるシンプルで効果的なマスク言語モデリングベースの方法を提案します。
MLM4HGは、HGトークンの代わりにメタパスベースのテキストシーケンスを導入して、HGに固有の構造情報とセマンティック情報を抽出し、異なるグラフタスクを統合するカスタマイズされたテキストテンプレートをコヒーレントなクロゼスタイル「マスク」「トークン予測パラダイム」に統合します。
具体的には、MLM4HGは最初にHGをさまざまなドメインからメタパスに基づいてテキストに変換し、その後、それらを統一されたタスクテキストと組み合わせてHGベースのコーパスを形成します。
さらに、コーパスは、制約された標的語彙を備えた微調整のために前処理されたLMに供給され、微調整されたLMが目に見えないターゲットHGに一般化できるようにします。
4つの実際のデータセットでの広範なクロスドメインおよびマルチタスク実験は、少ないショットとゼロショットシナリオの両方で最先端の方法よりもMLM4HGの優れた一般化パフォーマンスを示しています。
私たちのコードは、https://github.com/bupt-gamma/mlm4hgで入手できます。

要約(オリジナル)

Heterogeneous graph neural networks (HGNNs) excel at capturing structural and semantic information in heterogeneous graphs (HGs), while struggling to generalize across domains and tasks. Recently, some researchers have turned to integrating HGNNs with large language models (LLMs) for more generalizable heterogeneous graph learning. However, these approaches typically extract structural information via HGNNs as HG tokens, and disparities in embedding spaces between HGNNs and LLMs have been shown to bias the LLM’s comprehension of HGs. Moreover, as these HG tokens are often derived from node-level tasks, the model’s ability to generalize across tasks remains limited. To this end, we propose a simple yet effective Masked Language Modeling-based method, called MLM4HG. MLM4HG introduces metapath-based textual sequences instead of HG tokens to extract structural and semantic information inherent in HGs, and designs customized textual templates to unify different graph tasks into a coherent cloze-style ‘mask’ token prediction paradigm. Specifically, MLM4HG first converts HGs from various domains to texts based on metapaths, and subsequently combines them with the unified task texts to form a HG-based corpus. Moreover, the corpus is fed into a pretrained LM for fine-tuning with a constrained target vocabulary, enabling the fine-tuned LM to generalize to unseen target HGs. Extensive cross-domain and multi-task experiments on four real-world datasets demonstrate the superior generalization performance of MLM4HG over state-of-the-art methods in both few-shot and zero-shot scenarios. Our code is available at https://github.com/BUPT-GAMMA/MLM4HG.

arxiv情報

著者 Jinyu Yang,Cheng Yang,Shanyuan Cui,Zeyuan Guo,Liangwei Yang,Muhan Zhang,Chuan Shi
発行日 2025-06-06 15:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI | Masked Language Models are Good Heterogeneous Graph Generalizers はコメントを受け付けていません

Automated Journalistic Questions: A New Method for Extracting 5W1H in French

要約

5W1Hの質問 – 誰、何、いつ、どこで、なぜ、どのように – ジャーナリズムで一般的に使用され、記事がイベントを明確かつ体系的に説明することを保証します。
それらに答えることは、要約、クラスタリング、ニュース集約などのタスクの重要な前提条件です。
この論文では、最初の自動抽出パイプラインを設計して、フランスのニュース記事から5W1H情報を取得します。
アルゴリズムのパフォーマンスを評価するために、4つのヒトアノテーターがマークされた5W1Hの回答を含む250のケベックニュース記事のコーパスも作成します。
私たちの結果は、このタスクでパイプラインも大規模な言語モデルGPT-4Oと同様に機能することを示しています。

要約(オリジナル)

The 5W1H questions — who, what, when, where, why and how — are commonly used in journalism to ensure that an article describes events clearly and systematically. Answering them is a crucial prerequisites for tasks such as summarization, clustering, and news aggregation. In this paper, we design the first automated extraction pipeline to get 5W1H information from French news articles. To evaluate the performance of our algorithm, we also create a corpus of 250 Quebec news articles with 5W1H answers marked by four human annotators. Our results demonstrate that our pipeline performs as well in this task as the large language model GPT-4o.

arxiv情報

著者 Maxence Verhaverbeke,Julie A. Gramaccia,Richard Khoury
発行日 2025-06-06 15:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Automated Journalistic Questions: A New Method for Extracting 5W1H in French はコメントを受け付けていません

Emergent Response Planning in LLMs

要約

この作業では、大規模な言語モデル(LLM)は、次のトークンのみを予測するように訓練されていますが、緊急計画行動を示します。
単純なプロービングを通じて、LLMプロンプト表現は、$ \ textit {structure属性} $(応答長、推論ステップなど)、$ \ textit {content属性} $(例えば、ストーリーライティングの文字選択、応答の終了時の回答{$ \ centhion {e. $ \ centhion {e. $ \ textion {centsion {centsion {content属性)、$ \ textit {content属性)を含む、応答全体のグローバル属性をエンコードすることを実証します。
事実の一貫性)。
応答計画の識別に加えて、タスク全体でモデルサイズでどのようにスケーリングし、生成中にどのように進化するかを探ります。
LLMSが隠された表現において将来のために前進する結果は、透明性と生成制御を改善するための潜在的なアプリケーションを示唆しています。

要約(オリジナル)

In this work, we argue that large language models (LLMs), though trained to predict only the next token, exhibit emergent planning behaviors: $\textbf{their hidden representations encode future outputs beyond the next token}$. Through simple probing, we demonstrate that LLM prompt representations encode global attributes of their entire responses, including $\textit{structure attributes}$ (e.g., response length, reasoning steps), $\textit{content attributes}$ (e.g., character choices in storywriting, multiple-choice answers at the end of response), and $\textit{behavior attributes}$ (e.g., answer confidence, factual consistency). In addition to identifying response planning, we explore how it scales with model size across tasks and how it evolves during generation. The findings that LLMs plan ahead for the future in their hidden representations suggest potential applications for improving transparency and generation control.

arxiv情報

著者 Zhichen Dong,Zhanhui Zhou,Zhixuan Liu,Chao Yang,Chaochao Lu
発行日 2025-06-06 15:38:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Emergent Response Planning in LLMs はコメントを受け付けていません

Does It Run and Is That Enough? Revisiting Text-to-Chart Generation with a Multi-Agent Approach

要約

大規模な言語モデルは、自然言語チャートの説明を実行可能なコードに翻訳できますが、監視された微調整と強化学習の後でも、生成されたスクリプトの約15%が実行されません。
この永続的なエラー率がモデルの制限に起因するのか、単一プロンプト設計に依存しているのかを調査します。
これを調査するために、既製のGPT-4O-MINIモデルのみを使用して、起草、実行、修理、および判断を分離する軽量のマルチエージェントパイプラインを提案します。
\ textSc {text2chart31}ベンチマークでは、システムは3回の修復反復内で実行エラーを4.5 \%に減らし、最も強力な微調整ベースラインをほぼ5パーセントポイント上回りながら、コンピューティングを大幅に少なくします。
\ textsc {chartx}ベンチマークでも同様のパフォーマンスが観察され、エラー率は4.6 \%で、強力な一般化が示されています。
現在のベンチマークでは、実行の成功はほぼ解決されているようです。
ただし、手動のレビューでは、100枚のサンプルチャートのうち6個に幻覚が含まれており、LLMベースのアクセシビリティ監査には、生成されたチャートの7.2 \%(\ textSc {text2chart31})と​​7.2 \%(\ textsc {chartx})のみが基本的な色幅のガイドルを満たしていることが示されています。
これらの調査結果は、将来の作業が実行の信頼性からチャートの美学、セマンティックフィデリティ、およびアクセシビリティの改善に焦点を移すべきであることを示唆しています。

要約(オリジナル)

Large language models can translate natural-language chart descriptions into runnable code, yet approximately 15\% of the generated scripts still fail to execute, even after supervised fine-tuning and reinforcement learning. We investigate whether this persistent error rate stems from model limitations or from reliance on a single-prompt design. To explore this, we propose a lightweight multi-agent pipeline that separates drafting, execution, repair, and judgment, using only an off-the-shelf GPT-4o-mini model. On the \textsc{Text2Chart31} benchmark, our system reduces execution errors to 4.5\% within three repair iterations, outperforming the strongest fine-tuned baseline by nearly 5 percentage points while requiring significantly less compute. Similar performance is observed on the \textsc{ChartX} benchmark, with an error rate of 4.6\%, demonstrating strong generalization. Under current benchmarks, execution success appears largely solved. However, manual review reveals that 6 out of 100 sampled charts contain hallucinations, and an LLM-based accessibility audit shows that only 33.3\% (\textsc{Text2Chart31}) and 7.2\% (\textsc{ChartX}) of generated charts satisfy basic colorblindness guidelines. These findings suggest that future work should shift focus from execution reliability toward improving chart aesthetics, semantic fidelity, and accessibility.

arxiv情報

著者 James Ford,Anthony Rios
発行日 2025-06-06 15:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Does It Run and Is That Enough? Revisiting Text-to-Chart Generation with a Multi-Agent Approach はコメントを受け付けていません

Detecting Voice Phishing with Precision: Fine-Tuning Small Language Models

要約

代表的なオープンソースの小言語モデル(LM)であるLlama3を微調整することにより、音声フィッシング(VP)検出器を開発します。
プロンプトでは、慎重に設計されたVP評価基準を提供し、考え方(COT)手法を適用します。
LMSの堅牢性を評価し、パフォーマンスの違いを強調するために、モデルを困難な条件下に配置する敵対的なテストデータセットを構築します。
さらに、VP転写産物の欠如に対処するために、既存または新しいタイプのVP技術を参照することにより、転写産物を作成します。
評価基準が含まれている、COT技術が適用される、または両方が一緒に使用される場合を比較します。
実験では、我々の結果は、VP評価基準を含むプロンプトを含むデータセットで微調整されたLlama3-8Bモデルが小さなLMSで最高のパフォーマンスをもたらし、GPT-4ベースのVP検出器のそれに匹敵することを示しています。
これらの調査結果は、VP検出で小さなLMSにCOT技術を使用するよりも、人間の専門知識をプロンプトに組み込むことが効果的であることを示しています。

要約(オリジナル)

We develop a voice phishing (VP) detector by fine-tuning Llama3, a representative open-source, small language model (LM). In the prompt, we provide carefully-designed VP evaluation criteria and apply the Chain-of-Thought (CoT) technique. To evaluate the robustness of LMs and highlight differences in their performance, we construct an adversarial test dataset that places the models under challenging conditions. Moreover, to address the lack of VP transcripts, we create transcripts by referencing existing or new types of VP techniques. We compare cases where evaluation criteria are included, the CoT technique is applied, or both are used together. In the experiment, our results show that the Llama3-8B model, fine-tuned with a dataset that includes a prompt with VP evaluation criteria, yields the best performance among small LMs and is comparable to that of a GPT-4-based VP detector. These findings indicate that incorporating human expert knowledge into the prompt is more effective than using the CoT technique for small LMs in VP detection.

arxiv情報

著者 Ju Yong Sim,Seong Hwan Kim
発行日 2025-06-06 15:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Detecting Voice Phishing with Precision: Fine-Tuning Small Language Models はコメントを受け付けていません