要約
大規模な言語モデル(LLM)が、歴史的記念碑の説明を生成し、古代のテキストを翻訳し、口頭での伝統を維持し、教育コンテンツを作成するなど、文化遺産に関連するタスクでますます一般的になるにつれて、正確で文化的に整合したテキストを生成する能力がユーザーと研究者によってますます依存しています。
しかし、歴史的事実の不実表示、文化的アイデンティティの侵食、深刻な結果につながる可能性のある複雑な文化的物語の単純化など、生成されたテキストには文化的価値の不整合が存在する可能性があります。
したがって、文化遺産のためのLLMの文脈における価値の不整合を調査することは、これらのリスクを緩和するために重要ですが、この分野での体系的で包括的な研究と調査が重大な欠如がありました。
このギャップを埋めるために、文化的遺産関連のタスクのために文化的に整合したテキストを生成する際のLLMの信頼性を体系的に評価します。
5つのオープンソースLLMにわたって文化遺産の知識フレームワーク内で17の側面を持つ5つの広く認識されたカテゴリをカバーする1066のクエリタスクの広範なセットを編集することにより、包括的な評価を実施し、生成されたテキストの文化的価値の誤りの両方のタイプとレートの両方を調べます。
自動化されたアプローチと手動アプローチの両方を使用して、LLMで生成されたテキストの文化的価値の不整合を効果的に検出および分析します。
私たちの調査結果は懸念されています。生成されたテキストの65%以上が顕著な文化的不整合を示し、特定のタスクは重要な文化的価値とほぼ完全な不整列を示しています。
これらの調査結果を超えて、このペーパーでは、LLMの文化的感度と信頼性を高めることを目的とした将来の研究の貴重なリソースとして役立つベンチマークデータセットと包括的な評価ワークフローを紹介します。
要約(オリジナル)
As Large Language Models (LLMs) become increasingly prevalent in tasks related to cultural heritage, such as generating descriptions of historical monuments, translating ancient texts, preserving oral traditions, and creating educational content, their ability to produce accurate and culturally aligned texts is being increasingly relied upon by users and researchers. However, cultural value misalignments may exist in generated texts, such as the misrepresentation of historical facts, the erosion of cultural identity, and the oversimplification of complex cultural narratives, which may lead to severe consequences. Therefore, investigating value misalignment in the context of LLM for cultural heritage is crucial for mitigating these risks, yet there has been a significant lack of systematic and comprehensive study and investigation in this area. To fill this gap, we systematically assess the reliability of LLMs in generating culturally aligned texts for cultural heritage-related tasks. We conduct a comprehensive evaluation by compiling an extensive set of 1066 query tasks covering 5 widely recognized categories with 17 aspects within the knowledge framework of cultural heritage across 5 open-source LLMs, and examine both the type and rate of cultural value misalignments in the generated texts. Using both automated and manual approaches, we effectively detect and analyze the cultural value misalignments in LLM-generated texts. Our findings are concerning: over 65% of the generated texts exhibit notable cultural misalignments, with certain tasks demonstrating almost complete misalignment with key cultural values. Beyond these findings, this paper introduces a benchmark dataset and a comprehensive evaluation workflow that can serve as a valuable resource for future research aimed at enhancing the cultural sensitivity and reliability of LLMs.
arxiv情報
著者 | Fan Bu,Zheng Wang,Siyi Wang,Ziyao Liu |
発行日 | 2025-06-16 15:37:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google