Are you talking to [‘xem’] or [‘x’, ‘em’]? On Tokenization and Addressing Misgendering in LLMs with Pronoun Tokenization Parity

要約

NLP 研究の大部分は、ジェンダーバイアスが大規模言語モデル (LLM) 内でどのように現れ、増幅するかを文書化していますが、この研究は主にジェンダー二元論中心の文脈で行われています。
ますます多くの研究が、このジェンダー排他的な枠組みの有害な限界を明らかにしています。
多くの LLM は、特に新代名詞を使用する場合、性別の二項対立の外にある人を正確かつ一貫して参照することができません。
データ不足が原因の可能性として特定されていますが、データ不足が LLM のミスジェンダーに影響を与える正確なメカニズムはまだ解明されていません。
私たちの研究では、サブワードのトークン化におけるデータ不足の役割、そしてその結果としての LLM ワード表現の形成を研究することで、このギャップに対処しています。
多くの人気のある LLM のバックボーンであるバイト ペア エンコーディング (BPE) トークナイザーが、語彙外の動作を通じて新代名詞の性別の誤認にどのように寄与しているかを明らかにします。
代名詞トークン化パリティ (PTP) を導入します。これは、トークンの機能構造を保存することで LLM 新代名詞の性別の誤りを減らすための新しいアプローチです。
代名詞の一貫性ベースのメトリクスと新しい構文ベースのメトリクスを使用して、PTP の有効性を評価します。
いくつかの対照実験を通じて、PTP を使用して LLM を微調整すると、新代名詞の一貫性が 14.5% から 58.4% に向上し、トークン化が LLM 代名詞の一貫性において重要な役割を果たしていることが浮き彫りになりました。

要約(オリジナル)

A large body of NLP research has documented the ways gender biases manifest and amplify within large language models (LLMs), though this research has predominantly operated within a gender binary-centric context. A growing body of work has identified the harmful limitations of this gender-exclusive framing; many LLMs cannot correctly and consistently refer to persons outside the gender binary, especially if they use neopronouns. While data scarcity has been identified as a possible culprit, the precise mechanisms through which it influences LLM misgendering remain underexplored. Our work addresses this gap by studying data scarcity’s role in subword tokenization and, consequently, the formation of LLM word representations. We uncover how the Byte-Pair Encoding (BPE) tokenizer, a backbone for many popular LLMs, contributes to neopronoun misgendering through out-of-vocabulary behavior. We introduce pronoun tokenization parity (PTP), a novel approach to reduce LLM neopronoun misgendering by preserving a token’s functional structure. We evaluate PTP’s efficacy using pronoun consistency-based metrics and a novel syntax-based metric. Through several controlled experiments, finetuning LLMs with PTP improves neopronoun consistency from 14.5% to 58.4%, highlighting the significant role tokenization plays in LLM pronoun consistency.

arxiv情報

著者 Anaelia Ovalle,Ninareh Mehrabi,Palash Goyal,Jwala Dhamala,Kai-Wei Chang,Richard Zemel,Aram Galstyan,Rahul Gupta
発行日 2023-12-21 11:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク