要約
オンライン ヘイト検出は、データ サンプリング、アノテーション、モデルの事前トレーニングで発生するバイアスの影響を受けます。
したがって、保持されたテスト データのすべての例の平均パフォーマンスを測定することは不十分です。
代わりに、特定のモデルの弱点を特定し、失敗する可能性が高い時期について通知を受ける必要があります。
この方向での最近の提案は、「あなたは私にとって単なる [中傷] です」という種類のテンプレートを使用して生成された合成データに対して、きめの細かいモデル機能をテストするためのスイートである HateCheck です。
ただし、より詳細な診断洞察が可能であるにもかかわらず、HateCheck テスト ケースは多くの場合一般的で、現実世界のデータと一致しない単純な文構造を持っています。
この制限に対処するために、大規模言語モデル (LLM) を指示することで、より多様で現実的な機能テストを最初から生成するフレームワークである GPT-HateCheck を提案します。
追加の自然言語推論 (NLI) モデルを使用して世代を検証します。
クラウドソースのアノテーションは、生成されたテスト ケースが高品質であることを示します。
新しい機能テストを使用すると、元の HateCheck データセットを使用すると見落とされるモデルの弱点を明らかにできます。
要約(オリジナル)
Online hate detection suffers from biases incurred in data sampling, annotation, and model pre-training. Therefore, measuring the averaged performance over all examples in held-out test data is inadequate. Instead, we must identify specific model weaknesses and be informed when it is more likely to fail. A recent proposal in this direction is HateCheck, a suite for testing fine-grained model functionalities on synthesized data generated using templates of the kind ‘You are just a [slur] to me.’ However, despite enabling more detailed diagnostic insights, the HateCheck test cases are often generic and have simplistic sentence structures that do not match the real-world data. To address this limitation, we propose GPT-HateCheck, a framework to generate more diverse and realistic functional tests from scratch by instructing large language models (LLMs). We employ an additional natural language inference (NLI) model to verify the generations. Crowd-sourced annotation demonstrates that the generated test cases are of high quality. Using the new functional tests, we can uncover model weaknesses that would be overlooked using the original HateCheck dataset.
arxiv情報
著者 | Yiping Jin,Leo Wanner,Alexander Shvets |
発行日 | 2024-05-27 13:14:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google