要約
言語モデルの文化的認識を強化するために、さまざまなオンライン コミュニティから大規模な文化的知識ベースを構築するための一般化可能なパイプラインを設計します。
このパイプラインを使用して、TikTok から取得した 12,000 個と Reddit から取得した 11,000 個の文化記述子を使用して、ユーザーの自己物語に基づいて構築されたナレッジ ベースである CultureBank を構築します。
以前の文化知識リソースとは異なり、CultureBank には文化記述子に関する多様なビューが含まれており、文化知識の柔軟な解釈と、根拠のある評価に役立つ文脈化された文化シナリオを可能にします。
CultureBank では、さまざまな LLM の文化的認識を評価し、改善の余地がある領域を特定します。
また、CultureBank の言語モデルを微調整しました。実験では、ゼロショット設定で 2 つの下流の文化タスクでより良いパフォーマンスを達成することが示されています。
最後に、調査結果に基づいて、将来の文化を考慮した言語テクノロジに関する推奨事項を提供します。
プロジェクトページは https://culturebank.github.io です。
コードとモデルは https://github.com/SALT-NLP/CultureBank にあります。
リリースされた CultureBank データセットは https://huggingface.co/datasets/SALT-NLP/CultureBank にあります。
要約(オリジナル)
To enhance language models’ cultural awareness, we design a generalizable pipeline to construct cultural knowledge bases from different online communities on a massive scale. With the pipeline, we construct CultureBank, a knowledge base built upon users’ self-narratives with 12K cultural descriptors sourced from TikTok and 11K from Reddit. Unlike previous cultural knowledge resources, CultureBank contains diverse views on cultural descriptors to allow flexible interpretation of cultural knowledge, and contextualized cultural scenarios to help grounded evaluation. With CultureBank, we evaluate different LLMs’ cultural awareness, and identify areas for improvement. We also fine-tune a language model on CultureBank: experiments show that it achieves better performances on two downstream cultural tasks in a zero-shot setting. Finally, we offer recommendations based on our findings for future culturally aware language technologies. The project page is https://culturebank.github.io . The code and model is at https://github.com/SALT-NLP/CultureBank . The released CultureBank dataset is at https://huggingface.co/datasets/SALT-NLP/CultureBank .
arxiv情報
著者 | Weiyan Shi,Ryan Li,Yutong Zhang,Caleb Ziems,Chunhua yu,Raya Horesh,Rogério Abreu de Paula,Diyi Yang |
発行日 | 2024-04-23 17:16:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google