要約
大規模言語モデル (LLM) を攻撃することで、そこからの異常な出力を意図的に生成することは、人間の新たな活動です。
この文書では、人々がそのような攻撃を行う方法と理由について徹底的に説明します。
私たちは、正式な定性的方法論を使用して、幅広い背景を持つ数十人の実践者にインタビューしました。全員が、LLM を失敗させようとするこの新しい研究に貢献した人たちです。
私たちは、この活動を実践者の動機と目標との間で関連付け、結び付けます。
彼らが展開する戦略とテクニック。
そしてコミュニティが果たす重要な役割。
その結果、この論文では、人々が大規模な言語モデルを攻撃する方法と理由についての根拠のある理論、つまり現実の LLM レッド チーム化を提示します。
要約(オリジナル)
Engaging in the deliberate generation of abnormal outputs from large language models (LLMs) by attacking them is a novel human activity. This paper presents a thorough exposition of how and why people perform such attacks. Using a formal qualitative methodology, we interviewed dozens of practitioners from a broad range of backgrounds, all contributors to this novel work of attempting to cause LLMs to fail. We relate and connect this activity between its practitioners’ motivations and goals; the strategies and techniques they deploy; and the crucial role the community plays. As a result, this paper presents a grounded theory of how and why people attack large language models: LLM red teaming in the wild.
arxiv情報
著者 | Nanna Inie,Jonathan Stray,Leon Derczynski |
発行日 | 2023-11-13 17:00:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google