Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia

要約

大規模な言語モデルにおける知識評価は主に数学や物理学などの学術科目に焦点を当ててきましたが、これらの評価は現実世界の専門職の実践的な需要を捉えることができないことがよくあります。
このペーパーでは、さまざまな分野の職業および専門認定試験の成績を評価するために設計された 8,834 個の多肢選択問題で構成されるデータセットである IndoCareer を紹介します。
IndoCareer は、インドネシアに焦点を当て、(1) ヘルスケア、(2) 保険と金融、(3) クリエイティブとデザイン、(4) 観光とホスピタリティ、(5) 教育とトレーニング、の 6 つの主要セクターにわたる豊富な現地の背景を提供します。
(6) 法律。
27 の大規模な言語モデルを総合的に評価したところ、これらのモデルは、保険や金融など、ローカルな文脈が強い分野では特に苦戦していることがわかりました。
さらに、データセット全体を使用する場合、回答の選択肢をシャッフルすると、通常、モデル間で一貫した評価結果が維持されますが、特に保険および金融部門で不安定性が生じます。

要約(オリジナル)

While knowledge evaluation in large language models has predominantly focused on academic subjects like math and physics, these assessments often fail to capture the practical demands of real-world professions. In this paper, we introduce IndoCareer, a dataset comprising 8,834 multiple-choice questions designed to evaluate performance in vocational and professional certification exams across various fields. With a focus on Indonesia, IndoCareer provides rich local contexts, spanning six key sectors: (1) healthcare, (2) insurance and finance, (3) creative and design, (4) tourism and hospitality, (5) education and training, and (6) law. Our comprehensive evaluation of 27 large language models shows that these models struggle particularly in fields with strong local contexts, such as insurance and finance. Additionally, while using the entire dataset, shuffling answer options generally maintains consistent evaluation results across models, but it introduces instability specifically in the insurance and finance sectors.

arxiv情報

著者 Fajri Koto
発行日 2024-09-13 06:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク