Identifying Fairness Issues in Automatically Generated Testing Content

要約

自然言語生成ツールは、コンテンツの生成に強力かつ効果的です。
ただし、言語モデルにはバイアスと公平性の問題があることが知られており、多くのユースケースに導入するのは非現実的です。
ここでは、公平性の問題が自動生成されたテスト コンテンツにどのような影響を与えるかに焦点を当てます。自動生成されたテスト コンテンツには、テストが意図した内容のみを測定することを保証するための厳しい要件が課せられる場合があります。
具体的には、特定の領域やエクスペリエンスに焦点を当てた、特定の層のみを反映するテスト コンテンツや感情を揺さぶる可能性のあるテスト コンテンツを特定します。
どちらも、受験者のスコアに誤って影響を与える可能性があります。
この種のコンテンツは、文脈を無視した典型的なバイアスを反映していないため、安全装置を備えた最新のモデルであっても困難になります。
私たちは、公平性について注釈を付けた 621 個の生成テキストのデータセットを構築し、微調整、トピックベースの分類、および少数ショットや自己修正プロンプトを含むプロンプトなど、さまざまな分類方法を検討します。
迅速な自己修正と少数ショット学習を組み合わせると最高のパフォーマンスが得られ、実施されたテスト セットでは .791 の F1 スコアが得られましたが、はるかに小さい BERT およびトピックベースのモデルはドメイン外で競争力のあるパフォーマンスを発揮することがわかりました。
データ。

要約(オリジナル)

Natural language generation tools are powerful and effective for generating content. However, language models are known to display bias and fairness issues, making them impractical to deploy for many use cases. We here focus on how fairness issues impact automatically generated test content, which can have stringent requirements to ensure the test measures only what it was intended to measure. Specifically, we identify test content that is focused on particular domains and experiences that only reflect a certain demographic or that are potentially emotionally upsetting; both of which could inadvertently impact a test-taker’s score. This kind of content doesn’t reflect typical biases out of context, making it challenging even for modern models that contain safeguards. We build a dataset of 621 generated texts annotated for fairness and explore a variety of methods for classification: fine-tuning, topic-based classification, and prompting, including few-shot and self-correcting prompts. We find that combining prompt self-correction and few-shot learning performs best, yielding an F1 score of .791 on our held-out test set, while much smaller BERT- and topic-based models have competitive performance on out-of-domain data.

arxiv情報

著者 Kevin Stowe,Benny Longwill,Alyssa Francis,Tatsuya Aoyama,Debanjan Ghosh,Swapna Somasundaran
発行日 2024-04-23 14:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク