FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity

要約

生成人工知能の普及により、AI が生成したテキストによってもたらされる潜在的な危害についての懸念が高まっています。主に事実に基づいた、不公平で有害なコンテンツに起因します。
これまでの研究者は、生成言語モデルの無害性を評価することに多大な労力を費やしてきました。
しかし、既存のベンチマークは、大規模言語モデル (LLM) の時代において、より強力な言語生成と命令追従機能、および幅広いアプリケーションのせいで苦戦しています。
この論文では、事実性、公平性、毒性を備えた LLM 無害性評価のための、2116 の精緻に設計されたインスタンスを使用した新しいベンチマークである FFT を提案します。
LLM の潜在的な害を調査するために、さまざまなパラメーター スケール、トレーニング段階、作成者をカバーする 9 つの代表的な LLM を評価します。
実験では、LLM の無害性がまだ十分ではないことが示されており、広範な分析により、無害な LLM 研究に向けた将来の研究にインスピレーションを与える可能性のあるいくつかの洞察力に富んだ発見が得られました。

要約(オリジナル)

The widespread of generative artificial intelligence has heightened concerns about the potential harms posed by AI-generated texts, primarily stemming from factoid, unfair, and toxic content. Previous researchers have invested much effort in assessing the harmlessness of generative language models. However, existing benchmarks are struggling in the era of large language models (LLMs), due to the stronger language generation and instruction following capabilities, as well as wider applications. In this paper, we propose FFT, a new benchmark with 2116 elaborated-designed instances, for LLM harmlessness evaluation with factuality, fairness, and toxicity. To investigate the potential harms of LLMs, we evaluate 9 representative LLMs covering various parameter scales, training stages, and creators. Experiments show that the harmlessness of LLMs is still under-satisfactory, and extensive analysis derives some insightful findings that could inspire future research for harmless LLM research.

arxiv情報

著者 Shiyao Cui,Zhenyu Zhang,Yilong Chen,Wenyuan Zhang,Tianyun Liu,Siqi Wang,Tingwen Liu
発行日 2023-11-30 14:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク