BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models

要約

事前トレーニング済み言語モデル (PLM) には、現実世界に有害な影響を及ぼす可能性がある固有の社会的バイアスが存在します。
このような社会的バイアスは、一連のテスト文に現れるさまざまな社会的グループや属性に対して PLM が出力する確率値を通じて測定されます。
ただし、テスト文は限られた手動テンプレートのセットから生成されるか、高価なクラウドソーシングが必要なため、バイアステストは現時点では面倒です。
代わりに、テスト センテンスに表示される社会的グループと属性のユーザー指定の任意の組み合わせを考慮して、テスト センテンスの制御可能な生成に ChatGPT を使用することを提案します。
テンプレートベースの方法と比較すると、テスト文の生成に ChatGPT を使用するアプローチは、特に交差バイアスなどの困難な状況での社会的バイアスの検出に優れています。
私たちは、HuggingFace でホストされているオープンソースの包括的なバイアス テスト フレームワーク (BiasTestGPT) を紹介します。これは、バイアス テストのためにオープンソース PLM にプラグインできます。
さまざまな分野の専門家によるユーザー テストでは、最新の AI の社会的バイアスをテストできることに関心があることが示されました。
私たちのツールは、PLM におけるそのようなバイアスに対する認識を大幅に改善し、学習可能でユーザーフレンドリーであることが証明されました。
したがって、ソーシャル カテゴリと属性の任意の組み合わせに対して、多様なテスト文を大規模に自動生成することで、ドメインの専門家による PLM のシームレスなオープンエンドのソーシャル バイアス テストが可能になります。

要約(オリジナル)

Pretrained Language Models (PLMs) harbor inherent social biases that can result in harmful real-world implications. Such social biases are measured through the probability values that PLMs output for different social groups and attributes appearing in a set of test sentences. However, bias testing is currently cumbersome since the test sentences are generated either from a limited set of manual templates or need expensive crowd-sourcing. We instead propose using ChatGPT for the controllable generation of test sentences, given any arbitrary user-specified combination of social groups and attributes appearing in the test sentences. When compared to template-based methods, our approach using ChatGPT for test sentence generation is superior in detecting social bias, especially in challenging settings such as intersectional biases. We present an open-source comprehensive bias testing framework (BiasTestGPT), hosted on HuggingFace, that can be plugged into any open-source PLM for bias testing. User testing with domain experts from various fields has shown their interest in being able to test modern AI for social biases. Our tool has significantly improved their awareness of such biases in PLMs, proving to be learnable and user-friendly. We thus enable seamless open-ended social bias testing of PLMs by domain experts through an automatic large-scale generation of diverse test sentences for any combination of social categories and attributes.

arxiv情報

著者 Rafal Kocielnik,Shrimai Prabhumoye,Vivian Zhang,Roy Jiang,R. Michael Alvarez,Anima Anandkumar
発行日 2023-12-06 06:26:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.CY, I.2.7 パーマリンク