Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking

要約

事前トレーニングされた大規模言語モデルは多くのアプリケーションに革命をもたらしましたが、文化的な偏見や、異文化間のコミュニケーションや相互作用を導くために重要な文化的常識の知識の欠如に関連する課題に依然として直面しています。
世界中の多様で豊かな文化を捉える既存の方法の欠点を認識し、この論文では、大規模な多文化知識を獲得するための新しいアプローチを紹介します。
具体的には、私たちの方法は、文化的トピックに関する情報が豊富な Wikipedia 文書から、リンクされたページの広範なネットワークまで戦略的にナビゲートします。
この貴重なデータ収集源を活用して、私たちは、サブカントリーレベルの広範囲の地理的地域と民族言語グループをカバーする CultureAtlas データセットを構築します。データのクリーニングと前処理により、テキストの主張文の自己包含と、きめの細かい表現が保証されます。
文化的プロファイル情報の抽出。
私たちのデータセットは、文化的に多様な文脈における言語モデルのパフォーマンスの評価を容易にするだけでなく、文化的に敏感で意識的な言語モデルを開発するための基礎ツールとしても機能します。
私たちの取り組みは、デジタル領域における世界文化のより包括的でバランスの取れた表現を促進するために、AI における文化的格差の理解を深め、ギャップを埋めるための重要な一歩を示しています。

要約(オリジナル)

Pretrained large language models have revolutionized many applications but still face challenges related to cultural bias and a lack of cultural commonsense knowledge crucial for guiding cross-culture communication and interactions. Recognizing the shortcomings of existing methods in capturing the diverse and rich cultures across the world, this paper introduces a novel approach for massively multicultural knowledge acquisition. Specifically, our method strategically navigates from densely informative Wikipedia documents on cultural topics to an extensive network of linked pages. Leveraging this valuable source of data collection, we construct the CultureAtlas dataset, which covers a wide range of sub-country level geographical regions and ethnolinguistic groups, with data cleaning and preprocessing to ensure textual assertion sentence self-containment, as well as fine-grained cultural profile information extraction. Our dataset not only facilitates the evaluation of language model performance in culturally diverse contexts but also serves as a foundational tool for the development of culturally sensitive and aware language models. Our work marks an important step towards deeper understanding and bridging the gaps of cultural disparities in AI, to promote a more inclusive and balanced representation of global cultures in the digital domain.

arxiv情報

著者 Yi Fung,Ruining Zhao,Jae Doo,Chenkai Sun,Heng Ji
発行日 2024-02-14 18:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク