Assessing Thai Dialect Performance in LLMs with Automatic Benchmarks and Human Evaluation

要約

大規模な言語モデルは、さまざまなNLPタスクで有望な結果を示しています。
これらの成功にもかかわらず、特に地元の方言に関して、過小評価されている言語におけるLLMの堅牢性と一貫性はほとんど未踏のままです。
既存のベンチマークは、地元の方言のテキストに対するLLMの能力を無視して、主要な方言にも焦点を当てています。
この論文では、北(ランナ)、北東(イサン)、および南部(ダンブロ)タイをカバーするタイの地元の方言ベンチマークを紹介し、5つのNLPタスクでLLMを評価します:要約、質問への回答、翻訳、会話、食品関連のタスク。
さらに、世代の流encyさと方言固有の精度を評価するために、タイの地元の方言の人間の評価ガイドラインと指標を提案します。
結果は、LLMのパフォーマンスが標準のタイ語と比較してローカルタイ方言で大幅に低下し、GPT-4OやGemini2のような独自モデルのみがある程度の流ency性を示していることを示しています。

要約(オリジナル)

Large language models show promising results in various NLP tasks. Despite these successes, the robustness and consistency of LLMs in underrepresented languages remain largely unexplored, especially concerning local dialects. Existing benchmarks also focus on main dialects, neglecting LLMs’ ability on local dialect texts. In this paper, we introduce a Thai local dialect benchmark covering Northern (Lanna), Northeastern (Isan), and Southern (Dambro) Thai, evaluating LLMs on five NLP tasks: summarization, question answering, translation, conversation, and food-related tasks. Furthermore, we propose a human evaluation guideline and metric for Thai local dialects to assess generation fluency and dialect-specific accuracy. Results show that LLM performance declines significantly in local Thai dialects compared to standard Thai, with only proprietary models like GPT-4o and Gemini2 demonstrating some fluency

arxiv情報

著者 Peerat Limkonchotiwat,Kanruethai Masuk,Surapon Nonesung,Chalermpun Mai-On,Sarana Nutanong,Wuttikorn Ponwitayarat,Potsawee Manakul
発行日 2025-04-08 10:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク