要約
この論文では、多言語の道徳的推論ベンチマーク(MMRB)を紹介して、5つの類型的に多様な言語と3つのレベルの文脈的複雑さの大規模な言語モデル(LLM)の道徳的推論能力を評価します:文、段落、および文書。
私たちの結果は、特にベトナムなどの低リソース言語では、道徳的推論のパフォーマンスがコンテキストの複雑さを高めることで分解されます。
さらに、キュレーションされた単一言語データを使用してアラインメントと中毒を使用して、オープンソースのLlama-3-8Bモデルを微調整します。
驚くべきことに、低リソース言語は、高リソースの言語よりも多言語の推論に強い影響を与え、多言語NLPにおける重要な役割を強調しています。
要約(オリジナル)
In this paper, we introduce the Multilingual Moral Reasoning Benchmark (MMRB) to evaluate the moral reasoning abilities of large language models (LLMs) across five typologically diverse languages and three levels of contextual complexity: sentence, paragraph, and document. Our results show moral reasoning performance degrades with increasing context complexity, particularly for low-resource languages such as Vietnamese. We further fine-tune the open-source LLaMA-3-8B model using curated monolingual data for alignment and poisoning. Surprisingly, low-resource languages have a stronger impact on multilingual reasoning than high-resource ones, highlighting their critical role in multilingual NLP.
arxiv情報
著者 | Huichi Zhou,Zehao Xu,Munan Zhao,Kaihong Li,Yiqiang Li,Hongtao Wang |
発行日 | 2025-04-28 12:56:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google