要約
大規模な言語モデルが普及するにつれて、有害または不適切な応答の可能性が懸念の原因となります。
この論文では、そのような有害または不適切な応答を引き起こすように設計された、AttaQ と呼ばれる質問の形で敵対的な例を含む独自のデータセットを紹介します。
データセットの影響を受けたときのさまざまなモデルの脆弱性を分析することで、データセットの有効性を評価します。
さらに、脆弱なセマンティック領域、つまりモデルが有害な出力を生成する可能性が高い入力セマンティック領域を特定し、名前を付けるための新しい自動アプローチを導入します。
これは、入力攻撃の意味上の類似性とモデルの応答の有害性の両方を考慮する特殊なクラスタリング技術を適用することで実現されます。
脆弱なセマンティック領域を自動的に特定することで、モデルの弱点の評価が強化され、安全メカニズムと全体的な信頼性の対象を絞った改善が促進されます。
要約(オリジナル)
As large language models become more prevalent, their possible harmful or inappropriate responses are a cause for concern. This paper introduces a unique dataset containing adversarial examples in the form of questions, which we call AttaQ, designed to provoke such harmful or inappropriate responses. We assess the efficacy of our dataset by analyzing the vulnerabilities of various models when subjected to it. Additionally, we introduce a novel automatic approach for identifying and naming vulnerable semantic regions – input semantic areas for which the model is likely to produce harmful outputs. This is achieved through the application of specialized clustering techniques that consider both the semantic similarity of the input attacks and the harmfulness of the model’s responses. Automatically identifying vulnerable semantic regions enhances the evaluation of model weaknesses, facilitating targeted improvements to its safety mechanisms and overall reliability.
arxiv情報
著者 | George Kour,Marcel Zalmanovici,Naama Zwerdling,Esther Goldbraich,Ora Nova Fandina,Ateret Anaby-Tavor,Orna Raz,Eitan Farchi |
発行日 | 2023-11-07 16:50:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google