要約
今日の多言語大規模言語モデル (LLM) は、フィリピン人ユーザーに対して文化的に適切で適切な応答を必ずしも提供するとは限りません。
フィリピン語のネイティブ スピーカーが共同で作成した文化的 LLM 評価スイートである Kalahi を紹介します。
これは、フィリピンの文化的知識と価値観の共有に関連する、世代を超えた LLM をテストする、高品質で手作りの微妙なプロンプト 150 個で構成されています。
カラヒにおける LLM の優れたパフォーマンスは、特定の状況で平均的なフィリピン人が言うことや行うことと同様の応答を生成するモデルの能力を示しています。
私たちは、多言語とフィリピン語をサポートする LLM の実験を実施しました。
結果は、カラヒはフィリピン人にとっては些細なことでも、LLM にとっては挑戦的であることを示しており、最良のモデルでは質問の正答率が 46.0% にとどまったのに対し、母国語のフィリピン人のパフォーマンスは 89.10% でした。
したがって、Kalahi を使用すると、LLM におけるフィリピンの文化表現を正確かつ確実に評価できます。
要約(オリジナル)
Multilingual large language models (LLMs) today may not necessarily provide culturally appropriate and relevant responses to its Filipino users. We introduce Kalahi, a cultural LLM evaluation suite collaboratively created by native Filipino speakers. It is composed of 150 high-quality, handcrafted and nuanced prompts that test LLMs for generations that are relevant to shared Filipino cultural knowledge and values. Strong LLM performance in Kalahi indicates a model’s ability to generate responses similar to what an average Filipino would say or do in a given situation. We conducted experiments on LLMs with multilingual and Filipino language support. Results show that Kalahi, while trivial for Filipinos, is challenging for LLMs, with the best model answering only 46.0% of the questions correctly compared to native Filipino performance of 89.10%. Thus, Kalahi can be used to accurately and reliably evaluate Filipino cultural representation in LLMs.
arxiv情報
著者 | Jann Railey Montalan,Jian Gang Ngui,Wei Qi Leong,Yosephine Susanto,Hamsawardhini Rengarajan,Alham Fikri Aji,William Chandra Tjhi |
発行日 | 2024-12-18 14:39:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google