SGHateCheck: Functional Tests for Detecting Hate Speech in Low-Resource Languages of Singapore

要約

現在のヘイトスピーチ検出モデルの限界に対処するために、我々は、シンガポールと東南アジアの言語的・文化的コンテクストのために設計された新しいフレームワークである୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛を紹介します。これは、HateCheckとMHCの機能テストアプローチを拡張し、シンガポールの主要言語への翻訳と言い換えのための大規模な言語モデルを採用し、ネイティブのアノテーターでこれらを改良します。\SGHateCheck}は、最新モデルの重大な欠陥を明らかにし、繊細なコンテンツモデレーションにおける不適切さを浮き彫りにする。この研究は、多様な言語環境、特にシンガポールと東南アジアの文脈に対応した、より効果的なヘイトスピーチ検出ツールの開発を促進することを目的としている。

要約(オリジナル)

To address the limitations of current hate speech detection models, we introduce \textsf{SGHateCheck}, a novel framework designed for the linguistic and cultural context of Singapore and Southeast Asia. It extends the functional testing approach of HateCheck and MHC, employing large language models for translation and paraphrasing into Singapore’s main languages, and refining these with native annotators. \textsf{SGHateCheck} reveals critical flaws in state-of-the-art models, highlighting their inadequacy in sensitive content moderation. This work aims to foster the development of more effective hate speech detection tools for diverse linguistic environments, particularly for Singapore and Southeast Asia contexts.

arxiv情報

著者 Ri Chi Ng,Nirmalendu Prakash,Ming Shan Hee,Kenny Tsu Wei Choo,Roy Ka-Wei Lee
発行日 2024-05-03 04:18:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク