Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models

要約

警告: この文書には不快な内容のテキストが含まれている可能性があります。
大規模言語モデル (LLM) は、音声などのマルチモーダル データを含むさまざまなタスクで目覚ましいパフォーマンスを達成しました。
ただし、これらのモデルは、トレーニング データの性質によりバイアスを示すことがよくあります。
最近、さらに多くの音声大規模言語モデル (SLLM) が登場しており、これらのバイアスに対処する緊急の必要性が強調されています。
この研究では、SLLM における社会的バイアスを評価するために特別に設計されたデータセットである Spoken Stereoset を紹介します。
さまざまなモデルがさまざまな人口統計グループからの音声にどのように反応するかを調査することで、これらのバイアスを特定することを目的としています。
私たちの実験により、そのパフォーマンスとバイアスレベルに関する重要な洞察が明らかになりました。
この調査結果は、ほとんどのモデルが最小限のバイアスを示している一方で、一部のモデルは依然としてわずかに定型的または反定型的な傾向を示していることを示しています。

要約(オリジナル)

Warning: This paper may contain texts with uncomfortable content. Large Language Models (LLMs) have achieved remarkable performance in various tasks, including those involving multimodal data like speech. However, these models often exhibit biases due to the nature of their training data. Recently, more Speech Large Language Models (SLLMs) have emerged, underscoring the urgent need to address these biases. This study introduces Spoken Stereoset, a dataset specifically designed to evaluate social biases in SLLMs. By examining how different models respond to speech from diverse demographic groups, we aim to identify these biases. Our experiments reveal significant insights into their performance and bias levels. The findings indicate that while most models show minimal bias, some still exhibit slightly stereotypical or anti-stereotypical tendencies.

arxiv情報

著者 Yi-Cheng Lin,Wei-Chih Chen,Hung-yi Lee
発行日 2024-08-14 16:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク