要約
研究者や開発者は、顧客サービス、情報検索、コンテンツ生成などの設定において、生成言語モデルの出力を調整するために毒性スコアリングにますます依存しています。
しかし、毒性スコアリングは、特に疎外された人々にとって、関連情報にアクセスできなくなり、文化規範を硬直化または「価値ロック」し、言語の再利用プロセスを妨げる可能性があります。
この研究では、アルゴリズム依存の概念を生成言語モデルに拡張します。有害性フィルタリングのしきい値を動的に設定することで、望ましい予測を達成するための新しいメカニズムをユーザーに提供します。
これにより、ユーザーは、ベースライン システムとの対話に比べて、より多くの主体性を行使できます。
パイロット研究 ($n = 30$) は、モデル出力の固定閾値毒性フィルタリングと比較して使いやすさの向上を示し、私たちが提案する救済メカニズムの可能性を裏付けています。
今後の研究では、毒性スコアリング、モデルの制御可能性、ユーザー主体性、および言語再利用プロセスの交差点、特に生成言語モデルと対話するときに多くのコミュニティが遭遇するバイアスに関して調査する必要があります。
要約(オリジナル)
Researchers and developers increasingly rely on toxicity scoring to moderate generative language model outputs, in settings such as customer service, information retrieval, and content generation. However, toxicity scoring may render pertinent information inaccessible, rigidify or ‘value-lock’ cultural norms, and prevent language reclamation processes, particularly for marginalized people. In this work, we extend the concept of algorithmic recourse to generative language models: we provide users a novel mechanism to achieve their desired prediction by dynamically setting thresholds for toxicity filtering. Users thereby exercise increased agency relative to interactions with the baseline system. A pilot study ($n = 30$) supports the potential of our proposed recourse mechanism, indicating improvements in usability compared to fixed-threshold toxicity-filtering of model outputs. Future work should explore the intersection of toxicity scoring, model controllability, user agency, and language reclamation processes — particularly with regard to the bias that many communities encounter when interacting with generative language models.
arxiv情報
著者 | Jennifer Chien,Kevin R. McKee,Jackie Kay,William Isaac |
発行日 | 2024-03-21 15:14:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google