要約
大規模言語モデル(LLM)は、学習データの偏りを反映し、ひいてはこの学習データを作成した人の偏りを反映する。このようなバイアスを検出、分析、緩和することが研究の焦点となっている。これまであまり研究されてこなかったバイアスのひとつに、地理文化的バイアスがある。これらのバイアスは、学習データにおける異なる地理的地域や文化の表現の不均衡によって引き起こされるだけでなく、そこに含まれる価値判断によっても引き起こされる。本論文では、LLM、特にChatGPTとMixtralにおける音楽的バイアスを分析するための第一歩を踏み出す。我々は2つの実験を行った。一つ目は、LLMに様々なカテゴリの「トップ100」音楽投稿者リストを提供するよう促し、その出身国を分析する。2つ目の実験では、LLMに各国の音楽文化の様々な側面を数値で評価してもらった。その結果、どちらの実験でも、LLMは西洋の音楽文化を強く好むことがわかった。
要約(オリジナル)
Large Language Models (LLMs) reflect the biases in their training data and, by extension, those of the people who created this training data. Detecting, analyzing, and mitigating such biases is becoming a focus of research. One type of bias that has been understudied so far are geocultural biases. Those can be caused by an imbalance in the representation of different geographic regions and cultures in the training data, but also by value judgments contained therein. In this paper, we make a first step towards analyzing musical biases in LLMs, particularly ChatGPT and Mixtral. We conduct two experiments. In the first, we prompt LLMs to provide lists of the ‘Top 100’ musical contributors of various categories and analyze their countries of origin. In the second experiment, we ask the LLMs to numerically rate various aspects of the musical cultures of different countries. Our results indicate a strong preference of the LLMs for Western music cultures in both experiments.
arxiv情報
著者 | Anna Kruspe |
発行日 | 2025-02-03 10:52:15+00:00 |
arxivサイト | arxiv_id(pdf) |