要約
音声統合大規模言語モデル (SILLM) は、大規模言語モデルと音声認識を組み合わせて、感情認識から話者検証などのさまざまなタスクを実行し、普遍的な音声理解機能を実証します。
ただし、これらのモデルはトレーニング データに存在するバイアスを増幅する可能性があり、疎外されたグループの情報へのアクセスが偏る可能性があります。
この研究では、厳選された音声バイアス評価ツールキットと対応するデータセットを導入します。
私たちは、音声からテキストへの翻訳 (STT)、音声による共参照解決 (SCR)、音声による文の継続 (SSC)、および音声による質問応答 (SQA) という 4 つの意味関連タスクにわたって、SILLM におけるジェンダー バイアスを評価します。
私たちの分析により、バイアスのレベルは言語に依存し、評価方法が異なると異なることが明らかになりました。
私たちの調査結果は、SILLM のバイアスを包括的に評価するために複数のアプローチを採用する必要性を強調し、より公平な SILLM システムを開発するための洞察を提供します。
要約(オリジナル)
Speech Integrated Large Language Models (SILLMs) combine large language models with speech perception to perform diverse tasks, such as emotion recognition to speaker verification, demonstrating universal audio understanding capability. However, these models may amplify biases present in training data, potentially leading to biased access to information for marginalized groups. This work introduces a curated spoken bias evaluation toolkit and corresponding dataset. We evaluate gender bias in SILLMs across four semantic-related tasks: speech-to-text translation (STT), spoken coreference resolution (SCR), spoken sentence continuation (SSC), and spoken question answering (SQA). Our analysis reveals that bias levels are language-dependent and vary with different evaluation methods. Our findings emphasize the necessity of employing multiple approaches to comprehensively assess biases in SILLMs, providing insights for developing fairer SILLM systems.
arxiv情報
著者 | Yi-Cheng Lin,Tzu-Quan Lin,Chih-Kai Yang,Ke-Han Lu,Wei-Chih Chen,Chun-Yi Kuan,Hung-yi Lee |
発行日 | 2024-07-09 15:35:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google