要約
大規模言語モデル (LLM) の利用が世界中で普及しているため、多様な世界文化に対する十分な知識と公正な表現をもつことが重要です。
この研究では、文化条件付けされた世代を通じて、8 つの文化関連トピックに関する 110 の国と地域に関する 3 つの SOTA モデルの文化認識を明らかにし、LLM によって各文化に関連付けられているシンボルをこれらの世代から抽出します。
私たちは、文化条件付けされた生成が、デフォルトの文化とは別に疎外された文化を区別する言語的な「マーカー」で構成されていることを発見しました。
また、LLM の文化記号の多様性の程度が不均一であること、および LLM の文化に依存しない世代において、地理的地域が異なる文化が異なる存在感を示していることも発見しました。
私たちの調査結果は、LLM における世界的な文化認識の知識と公平性を研究するさらなる研究を促進します。
コードとデータはここにあります: https://github.com/huihanlhh/Culture-Gen/
要約(オリジナル)
As the utilization of large language models (LLMs) has proliferated world-wide, it is crucial for them to have adequate knowledge and fair representation for diverse global cultures. In this work, we uncover culture perceptions of three SOTA models on 110 countries and regions on 8 culture-related topics through culture-conditioned generations, and extract symbols from these generations that are associated to each culture by the LLM. We discover that culture-conditioned generation consist of linguistic ‘markers’ that distinguish marginalized cultures apart from default cultures. We also discover that LLMs have an uneven degree of diversity in the culture symbols, and that cultures from different geographic regions have different presence in LLMs’ culture-agnostic generation. Our findings promote further research in studying the knowledge and fairness of global culture perception in LLMs. Code and Data can be found here: https://github.com/huihanlhh/Culture-Gen/
arxiv情報
著者 | Huihan Li,Liwei Jiang,Jena D. Hwang,Hyunwoo Kim,Sebastin Santy,Taylor Sorensen,Bill Yuchen Lin,Nouha Dziri,Xiang Ren,Yejin Choi |
発行日 | 2024-08-09 11:06:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google