How Well Do LLMs Identify Cultural Unity in Diversity?

要約

大規模言語モデル (LLM) の文化的認識に関する研究の多くは、地理文化的多様性に対するモデルの感受性に焦点を当てています。
ただし、文化間の違いに加えて、文化間の共通点も存在します。
たとえば、米国のブライダル ベールは、中国のホンガイトウと同様の文化に関連した役割を果たしています。
この研究では、概念の文化的統一性を理解する際にデコーダ専用 LLM を評価するためのベンチマーク データセット CUNIT を紹介します。
具体的には、CUNIT は、10 か国の 285 の伝統的な文化特有の概念に基づいた 1,425 の評価例で構成されています。
概念ごとの文化関連特徴の体系的な手動アノテーションに基づいて、異文化概念のペア間の文化的関連性を計算します。
このデータセットに基づいて、高度に関連する異文化概念のペアを識別する LLM の能力を評価する対照的なマッチング タスクを設計します。
CUNIT で、抽出されたコンセプトの特徴をすべて与えるか、まったく特徴を与えないという設定の下で、3 つの一般的なプロンプト戦略を使用して、3 つの強力な LLM を評価しました。興味深いことに、衣料品のコンセプトに関する国の文化的な関連付けは、食品とは大きく異なることがわかりました。
私たちの分析によると、LLM は人間に比べて、概念間の異文化間の関連性を捉えることにまだ限定されています。
さらに、地理文化的近接性は、異文化間の関連性を把握する際のモデルのパフォーマンスに弱い影響を与えます。

要約(オリジナル)

Much work on the cultural awareness of large language models (LLMs) focuses on the models’ sensitivity to geo-cultural diversity. However, in addition to cross-cultural differences, there also exists common ground across cultures. For instance, a bridal veil in the United States plays a similar cultural-relevant role as a honggaitou in China. In this study, we introduce a benchmark dataset CUNIT for evaluating decoder-only LLMs in understanding the cultural unity of concepts. Specifically, CUNIT consists of 1,425 evaluation examples building upon 285 traditional cultural-specific concepts across 10 countries. Based on a systematic manual annotation of cultural-relevant features per concept, we calculate the cultural association between any pair of cross-cultural concepts. Built upon this dataset, we design a contrastive matching task to evaluate the LLMs’ capability to identify highly associated cross-cultural concept pairs. We evaluate 3 strong LLMs, using 3 popular prompting strategies, under the settings of either giving all extracted concept features or no features at all on CUNIT Interestingly, we find that cultural associations across countries regarding clothing concepts largely differ from food. Our analysis shows that LLMs are still limited to capturing cross-cultural associations between concepts compared to humans. Moreover, geo-cultural proximity shows a weak influence on model performance in capturing cross-cultural associations.

arxiv情報

著者 Jialin Li,Junli Wang,Junjie Hu,Ming Jiang
発行日 2024-08-09 14:45:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク