On Debiasing Text Embeddings Through Context Injection

要約

自然言語処理 (NLP) の現在の進歩により、テキスト データを活用したアプリケーションの構築がますます実現可能になりました。
一般に、これらのアプリケーションの中核は、埋め込みモデルを介してテキストをベクトルに適切に意味論的に表現できることに依存しています。
ただし、これらの埋め込みは、テキストにすでに存在するバイアスを捉え、永続化することがわかっています。
埋め込みをバイアスするための手法がいくつか提案されていますが、それらは現代の埋め込みモデルのコンテキスト理解における最近の進歩を利用していません。
このペーパーでは、19 個の埋め込みモデルのバイアスと、バイアス解消の手段としてのコンテキスト インジェクションに対するモデルの応答を定量化することでレビューを実施し、このギャップを埋めます。
パフォーマンスの高いモデルはバイアスを捕捉する傾向がありますが、コンテキストを組み込むのにも優れていることを示します。
驚くべきことに、モデルは肯定的な意味論を簡単に埋め込むことができますが、中立的な意味論を埋め込むことには失敗することがわかりました。
最後に、検索タスクでは、埋め込みのバイアスが望ましくない結果につながる可能性があることを示します。
私たちは新しく発見した洞察を使用して、$k$ が動的に選択される上位 $k$ 取得のための単純なアルゴリズムを設計します。
私たちのアルゴリズムが、関連する性別と中立のチャンクをすべて取得できることを示します。

要約(オリジナル)

Current advances in Natural Language Processing (NLP) have made it increasingly feasible to build applications leveraging textual data. Generally, the core of these applications rely on having a good semantic representation of text into vectors, via embedding models. However, it has been shown that these embeddings capture and perpetuate biases already present in text. While a few techniques have been proposed to debias embeddings, they do not take advantage of the recent advances in context understanding of modern embedding models. In this paper, we fill this gap by conducting a review of 19 embedding models by quantifying their biases and how well they respond to context injection as a mean of debiasing. We show that higher performing models are more prone to capturing biases, but are also better at incorporating context. Surprisingly, we find that while models can easily embed affirmative semantics, they fail at embedding neutral semantics. Finally, in a retrieval task, we show that biases in embeddings can lead to non-desirable outcomes. We use our new-found insights to design a simple algorithm for top $k$ retrieval, where $k$ is dynamically selected. We show that our algorithm is able to retrieve all relevant gendered and neutral chunks.

arxiv情報

著者 Thomas Uriot
発行日 2024-10-18 15:26:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク