Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey

要約

大規模言語モデル (LLM) は現在、会話アプリケーションでは一般的です。
しかし、有害な反応を生成するために悪用されるリスクが深刻な社会的懸念を引き起こし、LLM の会話の安全性に関する最近の研究に拍車がかかっています。
したがって、この調査では、LLM 会話の安全性の 3 つの重要な側面 (攻撃、防御、評価) をカバーする、最近の研究の包括的な概要を提供します。
私たちの目標は、LLM の会話の安全性についての理解を深め、この重要な主題についてのさらなる調査を促進する構造化された概要を提供することです。
簡単に参照できるよう、この調査で言及されたすべての研究を分類に従って分類しました。https://github.com/niconi19/LLM-conversation-safety で入手できます。

要約(オリジナル)

Large Language Models (LLMs) are now commonplace in conversation applications. However, their risks of misuse for generating harmful responses have raised serious societal concerns and spurred recent research on LLM conversation safety. Therefore, in this survey, we provide a comprehensive overview of recent studies, covering three critical aspects of LLM conversation safety: attacks, defenses, and evaluations. Our goal is to provide a structured summary that enhances understanding of LLM conversation safety and encourages further investigation into this important subject. For easy reference, we have categorized all the studies mentioned in this survey according to our taxonomy, available at: https://github.com/niconi19/LLM-conversation-safety.

arxiv情報

著者 Zhichen Dong,Zhanhui Zhou,Chao Yang,Jing Shao,Yu Qiao
発行日 2024-03-27 13:55:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク