Analyzing the Limits of Self-Supervision in Handling Bias in Language

要約

自然言語タスクの説明による入力のプロンプトは、コンテキスト内の監視をほとんどまたはまったく行わずに、大規模な生成言語モデルから適度に正確な出力を引き出す一般的なメカニズムとして浮上しています。
これは、ラベルのないテキストの膨大なコーパスに対する自己教師付き事前トレーニングのみから、言語モデルが広範囲にわたる下流タスクのセマンティクスをどの程度うまく捉えているかについての洞察を得るのにも役立ちます。
このようなモデルは、当然のことながら、人種差別や性差別的な言葉などの多くの望ましくないコンテンツにもさらされており、これらの側面に沿ったモデルの認識に関する取り組みは限られています。
この論文では、そのような言語モデルがバイアスに関する 4 つのタスク (診断、識別​​、抽出、言い換え) の意味論をどの程度うまく捉えているかを定義し、包括的に評価します。
これらのタスクのタスク説明には、ステートメント、質問、完了という 3 つの広範なクラスが定義されており、各クラス内に多数の語彙バリエーションが存在します。
これらのクラスとヌル タスクの説明を使用して、各タスクのプロンプトを表示する有効性を、いくつかのデコード方法と数ショットの例にわたって研究します。
私たちの分析によると、言語モデルは、性別や政治的所属など、さまざまなバイアスの側面にわたって、さまざまな程度でこれらのタスクを実行できることが示されています。
私たちは、このような社会学的に困難な課題を達成する際の現在の自己監督目標の限界を定量化することにより、私たちの研究が公平な言語モデルに向けた重要な一歩となると信じています。

要約(オリジナル)

Prompting inputs with natural language task descriptions has emerged as a popular mechanism to elicit reasonably accurate outputs from large-scale generative language models with little to no in-context supervision. This also helps gain insight into how well language models capture the semantics of a wide range of downstream tasks purely from self-supervised pre-training on massive corpora of unlabeled text. Such models have naturally also been exposed to a lot of undesirable content like racist and sexist language and there is limited work on awareness of models along these dimensions. In this paper, we define and comprehensively evaluate how well such language models capture the semantics of four tasks for bias: diagnosis, identification, extraction and rephrasing. We define three broad classes of task descriptions for these tasks: statement, question, and completion, with numerous lexical variants within each class. We study the efficacy of prompting for each task using these classes and the null task description across several decoding methods and few-shot examples. Our analyses indicate that language models are capable of performing these tasks to widely varying degrees across different bias dimensions, such as gender and political affiliation. We believe our work is an important step towards unbiased language models by quantifying the limits of current self-supervision objectives at accomplishing such sociologically challenging tasks.

arxiv情報

著者 Lisa Bauer,Karthik Gopalakrishnan,Spandana Gella,Yang Liu,Mohit Bansal,Dilek Hakkani-Tur
発行日 2023-08-16 09:20:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク