要約
大規模言語モデル (LLM) の機能と制限の評価は大きな関心を集めていますが、現実のシナリオで複数のモデルを評価することは依然としてまれです。
多言語の評価は翻訳されたベンチマークに依存することが多く、通常、ソース言語に存在する言語的および文化的ニュアンスは捕捉されません。
この研究では、インド英語と他の 4 つのインド言語で医療チャットボットと対話するインド人患者から収集された現実世界のデータに関する 24 の LLM の広範な評価が提供されています。
私たちは、統一された検索拡張生成フレームワークを使用して応答を生成します。応答は、自動化技術と人間の評価者の両方を使用して、アプリケーションに関連する 4 つの特定の指標で評価されます。
モデルのパフォーマンスには大幅なばらつきがあり、命令調整されたインド モデルはインド言語のクエリに対して常に良好なパフォーマンスを発揮するとは限らないことがわかりました。
さらに、インド語のクエリに対する応答は、英語のクエリに比べて事実の正しさが一般に低いことを経験的に示しています。
最後に、定性的な作業により、データセット内のコードが混在し、文化的に関連したクエリが評価モデルに課題をもたらしていることがわかりました。
要約(オリジナル)
Assessing the capabilities and limitations of large language models (LLMs) has garnered significant interest, yet the evaluation of multiple models in real-world scenarios remains rare. Multilingual evaluation often relies on translated benchmarks, which typically do not capture linguistic and cultural nuances present in the source language. This study provides an extensive assessment of 24 LLMs on real world data collected from Indian patients interacting with a medical chatbot in Indian English and 4 other Indic languages. We employ a uniform Retrieval Augmented Generation framework to generate responses, which are evaluated using both automated techniques and human evaluators on four specific metrics relevant to our application. We find that models vary significantly in their performance and that instruction tuned Indic models do not always perform well on Indic language queries. Further, we empirically show that factual correctness is generally lower for responses to Indic queries compared to English queries. Finally, our qualitative work shows that code-mixed and culturally relevant queries in our dataset pose challenges to evaluated models.
arxiv情報
著者 | Varun Gumma,Anandhita Raghunath,Mohit Jain,Sunayana Sitaram |
発行日 | 2024-10-17 15:29:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google