Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks

要約

大規模言語モデル (LLM) におけるパラメトリック ドメインの知識がますます深まり、実世界のアプリケーションへの迅速な展開が促進されています。
一か八かの知識集約的なタスクにおけるモデルの脆弱性を理解することは、モデル予測の信頼性を定量化し、その使用を規制するために不可欠です。
自然言語処理タスクにおける敵対的な例 (つまり、敵対的なエンティティ) としての名前付きエンティティの最近の発見により、リスクが高く特殊な領域における事前トレーニングおよび微調整された LLM の知識の堅牢性に対する名前付きエンティティの潜在的な影響について疑問が生じています。
私たちは、生物医学的知識を備えた 10 億パラメータの LLM の敵対的エンティティを収集するためのテンプレートとして、タイプ一貫性のあるエンティティ置換の使用を検討しました。
この目的を達成するために、私たちはパワースケールされた距離加重サンプリングに基づく埋め込み空間攻撃を開発し、低いクエリ バジェットと制御可能なカバレッジで生物医学知識の堅牢性を評価しました。
私たちの方法は、ランダムサンプリングとブラックボックス勾配ガイド検索に基づく代替アプローチよりも優れたクエリ効率とスケーリングを備えており、生物医学の質問応答における敵対的ディストラクタの生成で実証されました。
その後の障害モード分析により、攻撃対象領域上に異なる特徴を持つ敵対的エンティティの 2 つの体制が明らかになり、エンティティ置換攻撃がトークンごとの Shapley 値の説明を操作できることが示されましたが、この設定では欺瞞的になります。
私たちのアプローチは大容量モデルの標準評価を補完するものであり、その結果は LLM におけるドメイン知識の脆弱さを浮き彫りにします。

要約(オリジナル)

The increasing depth of parametric domain knowledge in large language models (LLMs) is fueling their rapid deployment in real-world applications. Understanding model vulnerabilities in high-stakes and knowledge-intensive tasks is essential for quantifying the trustworthiness of model predictions and regulating their use. The recent discovery of named entities as adversarial examples (i.e. adversarial entities) in natural language processing tasks raises questions about their potential impact on the knowledge robustness of pre-trained and finetuned LLMs in high-stakes and specialized domains. We examined the use of type-consistent entity substitution as a template for collecting adversarial entities for billion-parameter LLMs with biomedical knowledge. To this end, we developed an embedding-space attack based on powerscaled distance-weighted sampling to assess the robustness of their biomedical knowledge with a low query budget and controllable coverage. Our method has favorable query efficiency and scaling over alternative approaches based on random sampling and blackbox gradient-guided search, which we demonstrated for adversarial distractor generation in biomedical question answering. Subsequent failure mode analysis uncovered two regimes of adversarial entities on the attack surface with distinct characteristics and we showed that entity substitution attacks can manipulate token-wise Shapley value explanations, which become deceptive in this setting. Our approach complements standard evaluations for high-capacity models and the results highlight the brittleness of domain knowledge in LLMs.

arxiv情報

著者 R. Patrick Xian,Alex J. Lee,Satvik Lolla,Vincent Wang,Qiming Cui,Russell Ro,Reza Abbasi-Asl
発行日 2024-09-16 17:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, stat.AP パーマリンク