COBRA Frames: Contextual Reasoning about Effects and Harms of Offensive Statements

要約

警告: この文書には攻撃的または気分を害する可能性のある内容が含まれています。
発言の害と攻撃性を理解するには、発言が行われる社会的および状況的文脈について推論する必要があります。
たとえば、「あなたの英語はとても上手です」という発話は、白人男性が非白人の同僚に対して発した場合、暗黙のうちに侮辱の合図となる可能性がありますが、ESL教師が生徒に対して発した場合は、純粋な褒め言葉として解釈されます。
このような文脈上の要因は、有害な言語を検出するためのこれまでのアプローチではほとんど無視されてきました。
私たちは、社会的および状況的文脈に基づいた攻撃的または偏った発言の意図、反応、および害を説明するための最初の文脈認識形式主義である COBRA フレームを紹介します。
私たちは、機械が生成したコンテキストと、攻撃性、暗黙のバイアス、話者の意図、リスナーの反応に関するフリーテキストの説明と組み合わせた、33,000 の潜在的に攻撃的な発言のデータセットである COBRACORPUS を作成します。
攻撃性のコンテキストのダイナミクスを研究するために、コンテキストへのアクセスの有無にかかわらず、COBRA の説明を生成するモデルをトレーニングします。
文脈に依存しないモデルによる説明は、特に文脈によってステートメントの攻撃性が逆転するような状況(精度が 29% 低下する)では、文脈に依存しないモデルによる説明よりも著しく悪いことがわかりました。
私たちの研究は、社会的要因をモデル化することによって、文脈化された NLP の重要性と実現可能性を強調しています。

要約(オリジナル)

Warning: This paper contains content that may be offensive or upsetting. Understanding the harms and offensiveness of statements requires reasoning about the social and situational context in which statements are made. For example, the utterance ‘your English is very good’ may implicitly signal an insult when uttered by a white man to a non-white colleague, but uttered by an ESL teacher to their student would be interpreted as a genuine compliment. Such contextual factors have been largely ignored by previous approaches to toxic language detection. We introduce COBRA frames, the first context-aware formalism for explaining the intents, reactions, and harms of offensive or biased statements grounded in their social and situational context. We create COBRACORPUS, a dataset of 33k potentially offensive statements paired with machine-generated contexts and free-text explanations of offensiveness, implied biases, speaker intents, and listener reactions. To study the contextual dynamics of offensiveness, we train models to generate COBRA explanations, with and without access to the context. We find that explanations by context-agnostic models are significantly worse than by context-aware ones, especially in situations where the context inverts the statement’s offensiveness (29% accuracy drop). Our work highlights the importance and feasibility of contextualized NLP by modeling social factors.

arxiv情報

著者 Xuhui Zhou,Hao Zhu,Akhila Yerukola,Thomas Davidson,Jena D. Hwang,Swabha Swayamdipta,Maarten Sap
発行日 2023-06-09 01:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク