Mitigating Covertly Unsafe Text within Natural Language Systems

要約

制御されていないシステムが、怪我や生命を脅かす結果につながる推奨事項をユーザーに生成する可能性があるため、インテリジェント テクノロジにとってますます一般的な問題はテキストの安全性です。
ただし、身体的危害を引き起こす可能性のある生成されたステートメントの明示性の程度はさまざまです。
このホワイト ペーパーでは、身体的危害につながる可能性のあるテキストの種類を区別し、特に未調査のカテゴリを 1 つ確立します。
次に、システムの情報に関してこのカテゴリをさらに分類し、これらの各サブカテゴリでのテキストの生成を軽減するソリューションについて説明します。
最終的に、私たちの仕事は、身体的危害を引き起こすひそかに危険な言葉の問題を定義し、この微妙ではあるが危険な問題が利害関係者と規制当局によって優先される必要があると主張します.
将来の研究者がこの困難な問題に取り組み、スマート システム内の安全性を向上させるのに役立つ緩和戦略を強調します。

要約(オリジナル)

An increasingly prevalent problem for intelligent technologies is text safety, as uncontrolled systems may generate recommendations to their users that lead to injury or life-threatening consequences. However, the degree of explicitness of a generated statement that can cause physical harm varies. In this paper, we distinguish types of text that can lead to physical harm and establish one particularly underexplored category: covertly unsafe text. Then, we further break down this category with respect to the system’s information and discuss solutions to mitigate the generation of text in each of these subcategories. Ultimately, our work defines the problem of covertly unsafe language that causes physical harm and argues that this subtle yet dangerous issue needs to be prioritized by stakeholders and regulators. We highlight mitigation strategies to inspire future researchers to tackle this challenging problem and help improve safety within smart systems.

arxiv情報

著者 Alex Mei,Anisha Kabir,Sharon Levy,Melanie Subbiah,Emily Allaway,John Judge,Desmond Patton,Bruce Bimber,Kathleen McKeown,William Yang Wang
発行日 2023-03-20 21:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク