要約
予測モデルを構築する場合、多くの場合、アプリケーション固有の要件が、最終的に展開されるモデルによってエンコードされていることを確認することが困難です。
ヘイトスピーチの検出に取り組んでいる研究者のことを考えてみましょう。
彼らは何がヘイトスピーチとみなされるのかについてのアイデアを持っているでしょうが、彼らの見解を正確に反映するモデルを構築するには、データセットの構築とモデルのトレーニングのワークフロー全体を通じてその理想を維持する必要があります。
サンプリング バイアス、アノテーション バイアス、モデルの仕様の誤りなどの複雑な問題がほぼ常に発生し、アプリケーションの仕様とデプロイメント時のモデルの実際の動作との間にギャップが生じる可能性があります。
ヘイトスピーチ検出に関するこの問題に対処するために、我々は DefVerify を提案します。これは、(i) ユーザーが指定したヘイトスピーチの定義をエンコードし、(ii) モデルが意図した定義をどの程度反映しているかを定量化し、(iii)
ワークフローの障害点を特定しようとします。
DefVerify を使用して、6 つの一般的なヘイトスピーチ ベンチマーク データセットに適用した場合の定義とモデルの動作の間のギャップを見つけます。
要約(オリジナル)
When building a predictive model, it is often difficult to ensure that application-specific requirements are encoded by the model that will eventually be deployed. Consider researchers working on hate speech detection. They will have an idea of what is considered hate speech, but building a model that reflects their view accurately requires preserving those ideals throughout the workflow of data set construction and model training. Complications such as sampling bias, annotation bias, and model misspecification almost always arise, possibly resulting in a gap between the application specification and the model’s actual behavior upon deployment. To address this issue for hate speech detection, we propose DefVerify: a 3-step procedure that (i) encodes a user-specified definition of hate speech, (ii) quantifies to what extent the model reflects the intended definition, and (iii) tries to identify the point of failure in the workflow. We use DefVerify to find gaps between definition and model behavior when applied to six popular hate speech benchmark datasets.
arxiv情報
著者 | Urja Khurana,Eric Nalisnick,Antske Fokkens |
発行日 | 2025-01-13 10:23:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google