要約
低リソースの言語であるベンガル語(バングラ)の消費者健康クエリ(CHQ)には、多くの場合、無関係な詳細が含まれており、効率的な医学的反応を複雑にします。
この研究では、9つの高度な大手言語モデル(LLMS)のゼロショットパフォーマンスを調査しています:GPT-3.5-Turbo、GPT-4、Claude-3.5-Sonnet、llama3-70b-instruct、mixtral-8×22-instruct、gemini-1.5-pro、qwen2-72b-intruct、gemma-27b、
バングラCHQ。
2,350の注釈付きクエリスマリーペアで構成されるBanglachq-Summデータセットを使用して、微調整された最先端モデルであるBangla T5に対するルージュメトリックを使用してこれらのLLMをベンチマークしました。
Mixtral-8x22b-Instructは、Rouge-1およびRouge-Lのトップパフォーマンスモデルとして登場し、Bangla T5はRouge-2で優れていました。
結果は、ゼロショットLLMが微調整されたモデルに匹敵し、タスク固有のトレーニングがなくても高品質の要約を達成できることを示しています。
この作業は、低リソース言語の課題に対処するLLMSの可能性を強調し、ヘルスケアクエリの要約のためのスケーラブルなソリューションを提供します。
要約(オリジナル)
Consumer Health Queries (CHQs) in Bengali (Bangla), a low-resource language, often contain extraneous details, complicating efficient medical responses. This study investigates the zero-shot performance of nine advanced large language models (LLMs): GPT-3.5-Turbo, GPT-4, Claude-3.5-Sonnet, Llama3-70b-Instruct, Mixtral-8x22b-Instruct, Gemini-1.5-Pro, Qwen2-72b-Instruct, Gemma-2-27b, and Athene-70B, in summarizing Bangla CHQs. Using the BanglaCHQ-Summ dataset comprising 2,350 annotated query-summary pairs, we benchmarked these LLMs using ROUGE metrics against Bangla T5, a fine-tuned state-of-the-art model. Mixtral-8x22b-Instruct emerged as the top performing model in ROUGE-1 and ROUGE-L, while Bangla T5 excelled in ROUGE-2. The results demonstrate that zero-shot LLMs can rival fine-tuned models, achieving high-quality summaries even without task-specific training. This work underscores the potential of LLMs in addressing challenges in low-resource languages, providing scalable solutions for healthcare query summarization.
arxiv情報
著者 | Ajwad Abrar,Farzana Tabassum,Sabbir Ahmed |
発行日 | 2025-05-08 09:06:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google