Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric

要約

社会標準に準拠した大規模言語モデル (LLM) の開発を追求するには、生成されたテキストの有害性を検出することが不可欠です。
既存の毒性指標の大部分は、特定の毒性データセットでトレーニングされたエンコーダー モデルに依存していますが、これは分布外 (OOD) 問題の影響を受けやすく、データセットの毒性の定義に依存します。
この論文では、与えられた定義に従って毒性を柔軟に測定するために、LLM に基づいた堅牢な指標を紹介します。
まず毒性因子を分析し、続いて LLM の固有の毒性特性を検査して、評価者としての適性を確認します。
最後に、詳細な分析を使用してメトリクスのパフォーマンスを評価します。
私たちの経験的結果は、検証された要素内の毒性の測定において優れたパフォーマンスを示し、F1 スコアで従来の指標を 12 ポイント改善しました。
私たちの調査結果はまた、上流の毒性が下流の指標に大きな影響を与えることを示しており、LLMが未検証の要素内での毒性評価には適していないことを示唆しています。

要約(オリジナル)

In the pursuit of developing Large Language Models (LLMs) that adhere to societal standards, it is imperative to detect the toxicity in the generated text. The majority of existing toxicity metrics rely on encoder models trained on specific toxicity datasets, which are susceptible to out-of-distribution (OOD) problems and depend on the dataset’s definition of toxicity. In this paper, we introduce a robust metric grounded on LLMs to flexibly measure toxicity according to the given definition. We first analyze the toxicity factors, followed by an examination of the intrinsic toxic attributes of LLMs to ascertain their suitability as evaluators. Finally, we evaluate the performance of our metric with detailed analysis. Our empirical results demonstrate outstanding performance in measuring toxicity within verified factors, improving on conventional metrics by 12 points in the F1 score. Our findings also indicate that upstream toxicity significantly influences downstream metrics, suggesting that LLMs are unsuitable for toxicity evaluations within unverified factors.

arxiv情報

著者 Hyukhun Koh,Dohyung Kim,Minwoo Lee,Kyomin Jung
発行日 2024-11-14 14:28:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク