Debiasing should be Good and Bad: Measuring the Consistency of Debiasing Techniques in Language Models

要約

言語モデル (LM) が有害なテキストや不適切なテキストを出力する傾向を緩和しようとするバイアス除去手法が、最近注目を集めています。
この論文では、望ましい結果をもたらすだけでなく、そのメカニズムや仕様と一致する方法を区別する標準化されたプロトコルを提案します。
たとえば、LM の毒性を軽減するために開発されたバイアス除去法があると仮定して、バイアス除去法で使用される毒性の定義が逆になった場合、バイアス除去の結果も逆になるでしょうか?
このような考慮事項を使用して、新しいプロトコルの 3 つの基準、仕様の極性、仕様の重要性、およびドメインの転送可能性を考案しました。
ケーススタディとして、私たちのプロトコルを一般的なバイアス除去手法である自己除去に適用し、それを私たちが提案する指導的バイアス除去と呼ばれるものと比較し、単に望ましい結果であるだけでなく、一貫性がバイアス除去の実行可能性にとって重要な側面であることを実証します。
私たちのプロトコルが、そうでなければ見過ごされる可能性のあるバイアス除去法の一般化可能性と解釈可能性についての重要な洞察を提供することを示します。

要約(オリジナル)

Debiasing methods that seek to mitigate the tendency of Language Models (LMs) to occasionally output toxic or inappropriate text have recently gained traction. In this paper, we propose a standardized protocol which distinguishes methods that yield not only desirable results, but are also consistent with their mechanisms and specifications. For example, we ask, given a debiasing method that is developed to reduce toxicity in LMs, if the definition of toxicity used by the debiasing method is reversed, would the debiasing results also be reversed? We used such considerations to devise three criteria for our new protocol: Specification Polarity, Specification Importance, and Domain Transferability. As a case study, we apply our protocol to a popular debiasing method, Self-Debiasing, and compare it to one we propose, called Instructive Debiasing, and demonstrate that consistency is as important an aspect to debiasing viability as is simply a desirable result. We show that our protocol provides essential insights into the generalizability and interpretability of debiasing methods that may otherwise go overlooked.

arxiv情報

著者 Robert Morabito,Jad Kabbara,Ali Emami
発行日 2023-05-23 17:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク