Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models

要約

大規模な言語モデル(LLMS)の急速な成長は、大きなプライバシー、セキュリティ、倫理的懸念を示しています。
多くの研究により、悪意のある俳優による誤用からLLMシステムを擁護するための方法が提案されていますが、研究者は最近、これらの努力を赤いチーム化、つまり脆弱性を特定する目的でLLMを積極的に攻撃する攻撃的なアプローチで補完しました。
このペーパーでは、マルチコンポーネントシステムのエンドツーエンドを説明するように構成されたLLMレッドチームの文献の簡潔で実用的な概要を提供します。
レッドチームを動機付けるために、いくつかの有名なLLMの初期安全ニーズを調査し、レッドチーム化システムのさまざまなコンポーネントとそれらを実装するためのソフトウェアパッケージに飛び込みます。
さまざまな攻撃方法、攻撃サクセス評価のための戦略、実験の結果を評価するためのメトリック、およびその他の考慮事項について説明します。
私たちの調査は、実際のアプリケーションで独自の使用のために、主要な赤いチーム化の概念を迅速に把握したい読者に役立ちます。

要約(オリジナル)

The rapid growth of Large Language Models (LLMs) presents significant privacy, security, and ethical concerns. While much research has proposed methods for defending LLM systems against misuse by malicious actors, researchers have recently complemented these efforts with an offensive approach that involves red teaming, i.e., proactively attacking LLMs with the purpose of identifying their vulnerabilities. This paper provides a concise and practical overview of the LLM red teaming literature, structured so as to describe a multi-component system end-to-end. To motivate red teaming we survey the initial safety needs of some high-profile LLMs, and then dive into the different components of a red teaming system as well as software packages for implementing them. We cover various attack methods, strategies for attack-success evaluation, metrics for assessing experiment outcomes, as well as a host of other considerations. Our survey will be useful for any reader who wants to rapidly obtain a grasp of the major red teaming concepts for their own use in practical applications.

arxiv情報

著者 Alberto Purpura,Sahil Wadhwa,Jesse Zymet,Akshay Gupta,Andy Luo,Melissa Kazemi Rad,Swapnil Shinde,Mohammad Shahed Sorower
発行日 2025-03-05 14:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models はコメントを受け付けていません

Scaling Crowdsourced Election Monitoring: Construction and Evaluation of Classification Models for Multilingual and Cross-Domain Classification Settings

要約

従来の選挙監視に代わる補完的な代替としてのクラウドソーシングされた選挙監視の採用が増加しています。
しかし、着信選挙報告を手動で処理するためのデジタル対応ボランティアへの依存は、重要なスケーリングボトルネックをもたらします。
この論文では、クラウドソーシングされた選挙報告書の自動分類のタスクを多言語およびクロスドメイン分類設定に進めることにより、クラウドソーシングの選挙監視をスケーリングするという課題に対処します。
最初に有益なレポートを識別し、それらを異なる情報タイプに分類するという2段階の分類アプローチを提案します。
XLM-Robertaなどの多言語トランスモデルや、言語的に動機付けられた機能で拡張されたStbertなどの多言語埋め込みモデルを使用して分類実験を実施しています。
私たちのアプローチでは、情報型分類では、情報検出のために77 \%のF1スコアを達成します。
クロスドメイン実験を実施し、ソース選挙領域で訓練されたモデルをゼロショットおよび少ないショット分類設定で新しいターゲット選挙領域に適用します。
我々の結果は、選挙領域全体でモデル移転の有望な可能性を示しており、F1スコアはゼロショットで59 \%、少ないショット設定では63 \%です。
ただし、我々の分析は、トレーニングデータの不均衡のために、おそらくスワヒリ語をめぐる有益な英語レポートを検出する際のパフォーマンスバイアスも明らかにしているため、実際の選挙シナリオに分類モデルを展開する際の注意が必要であることを示しています。

要約(オリジナル)

The adoption of crowdsourced election monitoring as a complementary alternative to traditional election monitoring is on the rise. Yet, its reliance on digital response volunteers to manually process incoming election reports poses a significant scaling bottleneck. In this paper, we address the challenge of scaling crowdsourced election monitoring by advancing the task of automated classification of crowdsourced election reports to multilingual and cross-domain classification settings. We propose a two-step classification approach of first identifying informative reports and then categorising them into distinct information types. We conduct classification experiments using multilingual transformer models such as XLM-RoBERTa and multilingual embeddings such as SBERT, augmented with linguistically motivated features. Our approach achieves F1-Scores of 77\% for informativeness detection and 75\% for information type classification. We conduct cross-domain experiments, applying models trained in a source electoral domain to a new target electoral domain in zero-shot and few-shot classification settings. Our results show promising potential for model transfer across electoral domains, with F1-Scores of 59\% in zero-shot and 63\% in few-shot settings. However, our analysis also reveals a performance bias in detecting informative English reports over Swahili, likely due to imbalances in the training data, indicating a need for caution when deploying classification models in real-world election scenarios.

arxiv情報

著者 Jabez Magomere,Scott Hale
発行日 2025-03-05 15:17:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Scaling Crowdsourced Election Monitoring: Construction and Evaluation of Classification Models for Multilingual and Cross-Domain Classification Settings はコメントを受け付けていません

PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention

要約

大規模な言語モデル(LLM)は、長いコンテキストを処理する際の注意メカニズムの二次複雑さのために、効率のボトルネックに直面します。
まばらな注意方法は有望なソリューションを提供しますが、既存のアプローチはしばしば不完全な効果的なコンテキストに悩まされ、および/またはパイプラインの複雑な実装が必要です。
受容フィールドのそれぞれからの自己回帰LLMのまばらな注意の包括的な分析を提示し、受容フィールドを拡張するための既存の方法の最適ではない性質を認識し、理論分析を通じて効果的かつ完全なコンテキスト拡張を促進する新しいまばらな注意設計であるPowerAttentionを導入します。
PowerAttentionは、$ D $ -LAYER LLMSの指数受容フィールドの成長を達成し、各出力トークンが$ 2^d $トークンに参加できるようになり、受容フィールドの完全性と継続性が確保されます。
実験は、PowerAttentionが既存の静的スパース注意方法を5ドルで$ 5 \ SIM 40 \%$で上回ることを示しています。特に、パスキー検索や定規などの長距離依存関係を要求するタスクで、スライドウィンドウの注意に匹敵する時間の複雑さを維持します。
効率評価は、動的なスパースの注意と完全な注意(128Kコンテキストで$ 3.0 \ Times $速い)と比較して、POWERATTENTIONの充電フェーズとデコードフェーズの両方で優れたスピードアップを強調し、LLMSで長いシーケンスを処理するための非常に効果的でユーザーフレンドリーなソリューションになります。

要約(オリジナル)

Large Language Models (LLMs) face efficiency bottlenecks due to the quadratic complexity of the attention mechanism when processing long contexts. Sparse attention methods offer a promising solution, but existing approaches often suffer from incomplete effective context and/or require complex implementation of pipeline. We present a comprehensive analysis of sparse attention for autoregressive LLMs from the respective of receptive field, recognize the suboptimal nature of existing methods for expanding the receptive field, and introduce PowerAttention, a novel sparse attention design that facilitates effective and complete context extension through the theoretical analysis. PowerAttention achieves exponential receptive field growth in $d$-layer LLMs, allowing each output token to attend to $2^d$ tokens, ensuring completeness and continuity of the receptive field. Experiments demonstrate that PowerAttention outperforms existing static sparse attention methods by $5\sim 40\%$, especially on tasks demanding long-range dependencies like Passkey Retrieval and RULER, while maintaining a comparable time complexity to sliding window attention. Efficiency evaluations further highlight PowerAttention’s superior speedup in both prefilling and decoding phases compared with dynamic sparse attentions and full attention ($3.0\times$ faster on 128K context), making it a highly effective and user-friendly solution for processing long sequences in LLMs.

arxiv情報

著者 Lida Chen,Dong Xu,Chenxin An,Xintao Wang,Yikai Zhang,Jiangjie Chen,Zujie Liang,Feng Wei,Jiaqing Liang,Yanghua Xiao,Wei Wang
発行日 2025-03-05 15:24:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention はコメントを受け付けていません

Protecting multimodal large language models against misleading visualizations

要約

マルチモーダルの大手言語モデルの脆弱性を評価して、誤解を招く視覚化 – 切り捨てられた軸や反転軸などの手法を使用して基礎となるデータを歪め、読者が誤った情報や陰謀の理論をサポートする可能性のある不正確な結論を引き出すように導きます。
私たちの分析は、これらの歪みがマルチモーダルの大手言語モデルにひどく害を及ぼし、疑問の精度をランダムベースラインのレベルに低下させることを示しています。
この脆弱性を緩和するために、6つの推論時間方法を導入して、誤解を招く視覚化に対するMLLMのパフォーマンスを改善しながら、非誤ったものの精度を維持します。
最も効果的なアプローチには、(1)基礎となるデータテーブルの抽出と(2)テキストのみの大規模な言語モデルを使用して、テーブルに基づいて質問に答えることが含まれます。
この方法は、誤解を招く視覚化のパフォーマンスを15.4〜19.6パーセントポイント改善します。

要約(オリジナル)

We assess the vulnerability of multimodal large language models to misleading visualizations – charts that distort the underlying data using techniques such as truncated or inverted axes, leading readers to draw inaccurate conclusions that may support misinformation or conspiracy theories. Our analysis shows that these distortions severely harm multimodal large language models, reducing their question-answering accuracy to the level of the random baseline. To mitigate this vulnerability, we introduce six inference-time methods to improve performance of MLLMs on misleading visualizations while preserving their accuracy on non-misleading ones. The most effective approach involves (1) extracting the underlying data table and (2) using a text-only large language model to answer questions based on the table. This method improves performance on misleading visualizations by 15.4 to 19.6 percentage points.

arxiv情報

著者 Jonathan Tonglet,Tinne Tuytelaars,Marie-Francine Moens,Iryna Gurevych
発行日 2025-03-05 15:26:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Protecting multimodal large language models against misleading visualizations はコメントを受け付けていません

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

要約

高度な大手言語モデル(LLMS)の台頭により、人工テキスト検出(ATD)がますます重要になっています。
多くの努力にもかかわらず、異なるタイプの目に見えないテキストで一貫してうまく機能する単一のアルゴリズムはありません。また、新しいLLMへの効果的な一般化を保証します。
解釈性は、この目標を達成する上で重要な役割を果たします。
この研究では、Sparse Autoencoders(SAE)を使用してGemma-2-2Bの残留ストリームから特徴を抽出することにより、ATDの解釈性を向上させます。
解釈可能な機能と効率的な機能の両方を特定し、ドメインおよびモデル固有の統計、ステアリングアプローチ、および手動またはLLMベースの解釈を介したセマンティクスと関連性を分析します。
私たちの方法は、さまざまなモデルからのテキストが人間が作成したコンテンツとどのように異なるかについての貴重な洞察を提供します。
モダンLLMは、特に情報密度の高いドメインでは、個別のプロンプトを使用して人間のような出力を生成できるにもかかわらず、明確なライティングスタイルを持っていることを示しています。

要約(オリジナル)

Artificial Text Detection (ATD) is becoming increasingly important with the rise of advanced Large Language Models (LLMs). Despite numerous efforts, no single algorithm performs consistently well across different types of unseen text or guarantees effective generalization to new LLMs. Interpretability plays a crucial role in achieving this goal. In this study, we enhance ATD interpretability by using Sparse Autoencoders (SAE) to extract features from Gemma-2-2b residual stream. We identify both interpretable and efficient features, analyzing their semantics and relevance through domain- and model-specific statistics, a steering approach, and manual or LLM-based interpretation. Our methods offer valuable insights into how texts from various models differ from human-written content. We show that modern LLMs have a distinct writing style, especially in information-dense domains, even though they can produce human-like outputs with personalized prompts.

arxiv情報

著者 Kristian Kuznetsov,Laida Kushnareva,Polina Druzhinina,Anton Razzhigaev,Anastasia Voznyuk,Irina Piontkovskaya,Evgeny Burnaev,Serguei Barannikov
発行日 2025-03-05 15:33:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders はコメントを受け付けていません

Psy-Insight: Explainable Multi-turn Bilingual Dataset for Mental Health Counseling

要約

大規模な言語モデル(LLM)のコンテキスト内学習機能は、メンタルヘルスサポートに大きな可能性を示しています。
ただし、特に中国のコーパスでのカウンセリングデータセットの欠如は、この分野でのアプリケーションを制限しています。
これに対処するために、最初のメンタルヘルス指向の説明可能なマルチタスクバイリンガルデータセットであるPSY-Insightを構築しました。
マルチタスクラベルと会話プロセスの説明が注釈が付けられた対面のマルチターンカウンセリングの対話を収集しました。
注釈には、心理療法、感情、戦略、トピックラベル、ターンレベルの推論とセッションレベルのガイダンスが含まれます。
Psy-Insightは、ラベル認識などのタスクに適しているだけでなく、LLMが論理的推論を通じて共感的カウンセラーとして行動する必要性を満たしています。
実験では、PSY-InsightでのLLMSトレーニングにより、モデルは会話スタイルを模倣するだけでなく、カウンセリングの根底にある戦略と推論を理解できることが示されています。

要約(オリジナル)

The in-context learning capabilities of large language models (LLMs) show great potential in mental health support. However, the lack of counseling datasets, particularly in Chinese corpora, restricts their application in this field. To address this, we constructed Psy-Insight, the first mental health-oriented explainable multi-task bilingual dataset. We collected face-to-face multi-turn counseling dialogues, which are annotated with multi-task labels and conversation process explanations. Our annotations include psychotherapy, emotion, strategy, and topic labels, as well as turn-level reasoning and session-level guidance. Psy-Insight is not only suitable for tasks such as label recognition but also meets the need for training LLMs to act as empathetic counselors through logical reasoning. Experiments show that training LLMs on Psy-Insight enables the models to not only mimic the conversation style but also understand the underlying strategies and reasoning of counseling.

arxiv情報

著者 Keqi Chen,Zekai Sun,Yuhua Wen,Huijun Lian,Yingming Gao,Ya Li
発行日 2025-03-05 15:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Psy-Insight: Explainable Multi-turn Bilingual Dataset for Mental Health Counseling はコメントを受け付けていません

Prompt-enhanced Network for Hateful Meme Classification

要約

ソーシャルメディアの動的な拡大により、メディアプラットフォームで憎むべきミームが浸水し、効率的な識別と除去の必要性が高まっています。
外部の知識に大きく依存し、無関係または冗長コンテンツを含めるリスクをもたらす従来のマルチモーダル憎悪のミーム分類の制約を認識して、迅速な学習アプローチに基づいた迅速なネットワークフレームワークであるPENを開発しました。
具体的には、迅速な方法を介してシーケンスを構築し、言語モデルでエンコードした後、マルチビュー知覚のためにエンコードされたシーケンスでリージョン情報グローバル抽出を実行しました。
推論のインスタンスとデモンストレーションに関するグローバルな情報をキャプチャすることにより、ペンはシーケンス情報を完全に活用することにより、カテゴリの選択を容易にします。
このアプローチは、モデルの分類精度を大幅に向上させます。
さらに、特徴空間のモデルの推論機能を強化するために、サンプル特徴分布の品質を改善するために、フレームワークに迅速な対照学習を導入しました。
2つのパブリックデータセットでの広範なアブレーション実験により、PENフレームワークの有効性を評価し、最先端のモデルベースラインと同時に比較します。
私たちの調査結果は、ペンが手動の迅速な方法を上回り、憎むべきミーム分類タスクにおける優れた一般化と分類の精度を紹介することを強調しています。
私たちのコードは、https://github.com/juszzi/penで入手できます。

要約(オリジナル)

The dynamic expansion of social media has led to an inundation of hateful memes on media platforms, accentuating the growing need for efficient identification and removal. Acknowledging the constraints of conventional multimodal hateful meme classification, which heavily depends on external knowledge and poses the risk of including irrelevant or redundant content, we developed Pen — a prompt-enhanced network framework based on the prompt learning approach. Specifically, after constructing the sequence through the prompt method and encoding it with a language model, we performed region information global extraction on the encoded sequence for multi-view perception. By capturing global information about inference instances and demonstrations, Pen facilitates category selection by fully leveraging sequence information. This approach significantly improves model classification accuracy. Additionally, to bolster the model’s reasoning capabilities in the feature space, we introduced prompt-aware contrastive learning into the framework to improve the quality of sample feature distributions. Through extensive ablation experiments on two public datasets, we evaluate the effectiveness of the Pen framework, concurrently comparing it with state-of-the-art model baselines. Our research findings highlight that Pen surpasses manual prompt methods, showcasing superior generalization and classification accuracy in hateful meme classification tasks. Our code is available at https://github.com/juszzi/Pen.

arxiv情報

著者 Junxi Liu,Yanyan Feng,Jiehai Chen,Yun Xue,Fenghuan Li
発行日 2025-03-05 15:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Prompt-enhanced Network for Hateful Meme Classification はコメントを受け付けていません

Unveiling Simplicities of Attention: Adaptive Long-Context Head Identification

要約

長いコンテキストを処理する能力は、多くの自然言語処理タスクにとって重要ですが、それは依然として重要な課題です。
注意メカニズムの効率を向上させることには大きな進歩がありましたが、長いコンテキスト設定で注意がどのように機能するかを理解することには依然としてギャップがあります。
このホワイトペーパーでは、特定のヘッドは一貫してローカル情報のみに注意しているが、他の人はクエリに応じてローカルと長期の情報に参加することとの間で揺れ動くことを観察します。
これは疑問を提起します:次のトークンを正確に予測するために、どのヘッドが長いコンテキスト情報を必要とするかを特定できますか?
ローカルキーのみを使用して、どのヘッドが長いコンテキスト処理に重要であるかを予測することが可能であることを実証します。
ここでの核となるアイデアは、2番目のモーメント近似を介して長いコンテキストスコアの単純なモデルを活用することです。
これらの発見は、長いシーケンスのコンテキストでの注意の単純な特性を明らかにし、効率の潜在的に大きな利益への扉を開きます。

要約(オリジナル)

The ability to process long contexts is crucial for many natural language processing tasks, yet it remains a significant challenge. While substantial progress has been made in enhancing the efficiency of attention mechanisms, there is still a gap in understanding how attention heads function in long-context settings. In this paper, we observe that while certain heads consistently attend to local information only, others swing between attending to local and long-context information depending on the query. This raises the question: can we identify which heads require long-context information to predict the next token accurately? We demonstrate that it’s possible to predict which heads are crucial for long-context processing using only local keys. The core idea here is to exploit a simple model for the long-context scores via second moment approximations. These findings unveil simple properties of attention in the context of long sequences, and open the door to potentially significant gains in efficiency.

arxiv情報

著者 Konstantin Donhauser,Charles Arnal,Mohammad Pezeshki,Vivien Cabannes,David Lopez-Paz,Kartik Ahuja
発行日 2025-03-05 16:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Unveiling Simplicities of Attention: Adaptive Long-Context Head Identification はコメントを受け付けていません

Psy-Copilot: Visual Chain of Thought for Counseling

要約

大規模な言語モデル(LLM)は、心理カウンセリングの分野でますます人気が高まっています。
ただし、人間のセラピストがセラピーセッションでLLMSと協力する場合、モデルがどのように答えを与えるかを理解することは困難です。
これに対処するために、治療セッション中にLLMの思考プロセスを視覚化するように設計されたグラフであるPSY-COTを構築しました。
PSY-COTグラフは、セラピストの推論と洞察を捉える段階的な注釈とともに、半構造化されたカウンセリングの会話を示しています。
さらに、私たちはPsy-Copilotを開発しました。これは、人間の心理療法士が相談を支援するために設計された会話型AIアシスタントです。
回答候補、同様の対話セッション、関連戦略、視覚的な結果を含む検索に基づいて、追跡可能な精神情報を提供できます。
また、AIアシストカウンセリングのためのインタラクティブなプラットフォームを構築しました。
検索サブグラフの関連部分を表示するインターフェイスがあります。
Psy-Copilotは、心理療法士を置き換えるのではなく、AIと人間のセラピストの間の協力を促進するように設計されており、それによってメンタルヘルスの発達を促進します。
私たちのコードとデモはどちらもオープンソースであり、使用可能です。

要約(オリジナル)

Large language models (LLMs) are becoming increasingly popular in the field of psychological counseling. However, when human therapists work with LLMs in therapy sessions, it is hard to understand how the model gives the answers. To address this, we have constructed Psy-COT, a graph designed to visualize the thought processes of LLMs during therapy sessions. The Psy-COT graph presents semi-structured counseling conversations alongside step-by-step annotations that capture the reasoning and insights of therapists. Moreover, we have developed Psy-Copilot, which is a conversational AI assistant designed to assist human psychological therapists in their consultations. It can offer traceable psycho-information based on retrieval, including response candidates, similar dialogue sessions, related strategies, and visual traces of results. We have also built an interactive platform for AI-assisted counseling. It has an interface that displays the relevant parts of the retrieval sub-graph. The Psy-Copilot is designed not to replace psychotherapists but to foster collaboration between AI and human therapists, thereby promoting mental health development. Our code and demo are both open-sourced and available for use.

arxiv情報

著者 Keqi Chen,Zekai Sun,Huijun Lian,Yingming Gao,Ya Li
発行日 2025-03-05 16:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Psy-Copilot: Visual Chain of Thought for Counseling はコメントを受け付けていません

Token-Level Privacy in Large Language Models

要約

言語モデルをリモートサービスとして使用するには、個人情報を外部プロバイダーに送信する必要があり、大きなプライバシーの懸念を引き起こします。
このプロセスは、機密データを信頼されていないサービスプロバイダーにさらすリスクがあるだけでなく、盗聴者による傍受に対して脆弱なままになります。
自然言語処理(NLP)の相互作用のための既存のプライバシー普及方法は、主にセマンティックな類似性に依存しており、コンテキスト情報の役割を見下ろしています。
この作業では、DCHIステンシルを紹介します。これは、DCHIの差動プライバシーフレームワークの下で強力なプライバシー保証を確保し、2EPSILON-DCHI-PRIVACYを達成しながら、コンテキストおよびセマンティック情報を統合する新しいトークンレベルのプライバシーを提供するメカニズムです。
セマンティックとコンテキストの両方のニュアンスを組み込むことにより、DCHI-Stencilはプライバシーとユーティリティの間の堅牢なバランスを達成します。
最先端の言語モデルと多様なデータセットを使用してDCHIステンシルを評価し、既存の方法と比較して、ユーティリティとプライバシーの間で同等かつさらに良いトレードオフを達成します。
この作業は、DCHIステンシルが最新のハイリスクアプリケーションでプライバシーを提供するNLPの新しい基準を設定する可能性を強調しています。

要約(オリジナル)

The use of language models as remote services requires transmitting private information to external providers, raising significant privacy concerns. This process not only risks exposing sensitive data to untrusted service providers but also leaves it vulnerable to interception by eavesdroppers. Existing privacy-preserving methods for natural language processing (NLP) interactions primarily rely on semantic similarity, overlooking the role of contextual information. In this work, we introduce dchi-stencil, a novel token-level privacy-preserving mechanism that integrates contextual and semantic information while ensuring strong privacy guarantees under the dchi differential privacy framework, achieving 2epsilon-dchi-privacy. By incorporating both semantic and contextual nuances, dchi-stencil achieves a robust balance between privacy and utility. We evaluate dchi-stencil using state-of-the-art language models and diverse datasets, achieving comparable and even better trade-off between utility and privacy compared to existing methods. This work highlights the potential of dchi-stencil to set a new standard for privacy-preserving NLP in modern, high-risk applications.

arxiv情報

著者 Re’em Harel,Niv Gilboa,Yuval Pinter
発行日 2025-03-05 16:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Token-Level Privacy in Large Language Models はコメントを受け付けていません