Down the Toxicity Rabbit Hole: A Novel Framework to Bias Audit Large Language Models

要約

この論文は 3 つの貢献を行っています。
まず、大規模な言語モデルの幅広いスイートから有害なコンテンツを反復的に引き出す \textit{毒性ウサギの穴} と呼ばれる、一般化可能な新しいフレームワークを提示します。
1,266 個の ID グループのセットを対象として、最初に \texttt{PaLM 2} ガードレールのバイアス監査を実施し、重要な洞察を提示します。
次に、他のいくつかのモデルにわたる一般化可能性を報告します。
誘発された有害な内容を通じて、人種差別、反ユダヤ主義、女性蔑視、イスラム嫌悪、同性愛嫌悪、トランス嫌悪に重点を置いた広範な分析を提示します。
最後に、具体的な例に基づいて、潜在的な影響について説明します。

要約(オリジナル)

This paper makes three contributions. First, it presents a generalizable, novel framework dubbed \textit{toxicity rabbit hole} that iteratively elicits toxic content from a wide suite of large language models. Spanning a set of 1,266 identity groups, we first conduct a bias audit of \texttt{PaLM 2} guardrails presenting key insights. Next, we report generalizability across several other models. Through the elicited toxic content, we present a broad analysis with a key emphasis on racism, antisemitism, misogyny, Islamophobia, homophobia, and transphobia. Finally, driven by concrete examples, we discuss potential ramifications.

arxiv情報

著者 Arka Dutta,Adel Khorramrouz,Sujan Dutta,Ashiqur R. KhudaBukhsh
発行日 2024-03-31 02:24:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク