Diagnosing and Debiasing Corpus-Based Political Bias and Insults in GPT2

要約

インターネットから取得したフィルタリングされていない広範なコーパスで大規模言語モデル (LLM) をトレーニングすることは、一般的で有利な手法です。
その結果、LLM は暴力的、攻撃的、有害な言葉を含むさまざまなタイプの偏見を学習し、誤って再現してしまいます。
ただし、最近の研究では、生成事前学習トランスフォーマー (GPT) 言語モデルが自身のバイアスを認識し、生成されたコンテンツの有害性を検出できることが示されており、このプロセスは自己診断と呼ばれます。
これに応えて、研究者らは、LLM が自己バイアスを解除できる、つまり有害なテキストを生成する可能性を低減できる復号アルゴリズムを開発しました。
この研究では、さらに 2 つのタイプのバイアス、侮辱と政治的偏見を軽減する際の、診断とバイアスを軽減するアプローチの有効性を調査します。
これらのバイアスは、潜在的に異なる意味論的および構文的特性を示すにもかかわらず、談話では同じ意味で使用されることがよくあります。
私たちは、人間と AI の相互作用の倫理的および社会的影響を調査する継続的な取り組みに貢献することを目指しています。

要約(オリジナル)

The training of large language models (LLMs) on extensive, unfiltered corpora sourced from the internet is a common and advantageous practice. Consequently, LLMs have learned and inadvertently reproduced various types of biases, including violent, offensive, and toxic language. However, recent research shows that generative pretrained transformer (GPT) language models can recognize their own biases and detect toxicity in generated content, a process referred to as self-diagnosis. In response, researchers have developed a decoding algorithm that allows LLMs to self-debias, or reduce their likelihood of generating harmful text. This study investigates the efficacy of the diagnosing-debiasing approach in mitigating two additional types of biases: insults and political bias. These biases are often used interchangeably in discourse, despite exhibiting potentially dissimilar semantic and syntactic properties. We aim to contribute to the ongoing effort of investigating the ethical and social implications of human-AI interaction.

arxiv情報

著者 Ambri Ma,Arnav Kumar,Brett Zeligson
発行日 2023-11-17 01:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク