要約
既存の言語モデル(LMS)はしばしば西洋中心のバイアスを示し、多様な文化的知識を表すために苦労します。
これに対処するための以前の試みは、合成データに依存し、英語でのみ文化的知識を表現しています。
この作業では、少量の人間が書かれた多言語の文化的選好データが、さまざまなモデルファミリやサイズでLMSを改善できるかどうかを調べます。
最初に、中国とアラブの文化に関する2,580の質問で人間の好みを伴う24.1kの回答の多言語リソースであるケアを紹介します。
ケアを使用して、文化的整合により、一般的な能力を損なうことなく、一般的なリソースを超えて既存のLMSが改善されることを実証します。
さらに、LMS、ネイティブスピーカー、およびさまざまな言語で照会されたときにWebコンテンツを取得した文化的認識を評価します。
私たちの実験は、LMS間の地域の格差を明らかにしています。これは文書化のギャップにも反映されている可能性があります。ネイティブスピーカーは、多くの場合、日常の文化的常識と社会的規範を当然のことと考えていますが、非ネイティブはそれらを積極的に探し出し、文書化する可能性が高くなります。
ケアはhttps://github.com/guochry/careで公開されています(近い将来、日本のデータを追加する予定です)。
要約(オリジナル)
Existing language models (LMs) often exhibit a Western-centric bias and struggle to represent diverse cultural knowledge. Previous attempts to address this rely on synthetic data and express cultural knowledge only in English. In this work, we study whether a small amount of human-written, multilingual cultural preference data can improve LMs across various model families and sizes. We first introduce CARE, a multilingual resource of 24.1k responses with human preferences on 2,580 questions about Chinese and Arab cultures, all carefully annotated by native speakers and offering more balanced coverage. Using CARE, we demonstrate that cultural alignment improves existing LMs beyond generic resources without compromising general capabilities. Moreover, we evaluate the cultural awareness of LMs, native speakers, and retrieved web content when queried in different languages. Our experiment reveals regional disparities among LMs, which may also be reflected in the documentation gap: native speakers often take everyday cultural commonsense and social norms for granted, while non-natives are more likely to actively seek out and document them. CARE is publicly available at https://github.com/Guochry/CARE (we plan to add Japanese data in the near future).
arxiv情報
著者 | Geyang Guo,Tarek Naous,Hiromi Wakaki,Yukiko Nishimura,Yuki Mitsufuji,Alan Ritter,Wei Xu |
発行日 | 2025-04-07 14:57:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google