Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization

要約

低リソースの言語であるベンガル語(バングラ)の消費者健康クエリ(CHQ)には、多くの場合、無関係な詳細が含まれており、効率的な医学的反応を複雑にします。
この研究では、9つの高度な大手言語モデル(LLMS)のゼロショットパフォーマンスを調査しています:GPT-3.5-Turbo、GPT-4、Claude-3.5-Sonnet、llama3-70b-instruct、mixtral-8×22-instruct、gemini-1.5-pro、qwen2-72b-intruct、gemma-27b、
バングラCHQ。
2,350の注釈付きクエリスマリーペアで構成されるBanglachq-Summデータセットを使用して、微調整された最先端モデルであるBangla T5に対するルージュメトリックを使用してこれらのLLMをベンチマークしました。
Mixtral-8x22b-Instructは、Rouge-1およびRouge-Lのトップパフォーマンスモデルとして登場し、Bangla T5はRouge-2で優れていました。
結果は、ゼロショットLLMが微調整されたモデルに匹敵し、タスク固有のトレーニングがなくても高品質の要約を達成できることを示しています。
この作業は、低リソース言語の課題に対処するLLMSの可能性を強調し、ヘルスケアクエリの要約のためのスケーラブルなソリューションを提供します。

要約(オリジナル)

Consumer Health Queries (CHQs) in Bengali (Bangla), a low-resource language, often contain extraneous details, complicating efficient medical responses. This study investigates the zero-shot performance of nine advanced large language models (LLMs): GPT-3.5-Turbo, GPT-4, Claude-3.5-Sonnet, Llama3-70b-Instruct, Mixtral-8x22b-Instruct, Gemini-1.5-Pro, Qwen2-72b-Instruct, Gemma-2-27b, and Athene-70B, in summarizing Bangla CHQs. Using the BanglaCHQ-Summ dataset comprising 2,350 annotated query-summary pairs, we benchmarked these LLMs using ROUGE metrics against Bangla T5, a fine-tuned state-of-the-art model. Mixtral-8x22b-Instruct emerged as the top performing model in ROUGE-1 and ROUGE-L, while Bangla T5 excelled in ROUGE-2. The results demonstrate that zero-shot LLMs can rival fine-tuned models, achieving high-quality summaries even without task-specific training. This work underscores the potential of LLMs in addressing challenges in low-resource languages, providing scalable solutions for healthcare query summarization.

arxiv情報

著者 Ajwad Abrar,Farzana Tabassum,Sabbir Ahmed
発行日 2025-05-08 09:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク