Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries

要約

発展途上国におけるメンタルヘルス支援の改善は緊急の必要性です。
考えられる解決策の 1 つは、診断スクリーニングを実施するためのスケーラブルな自動システムの開発であり、これは精神保健専門家の負担を軽減するのに役立つ可能性があります。
この研究では、精神状態の検査から簡潔な要約を生成するために、カスタム データセット上で微調整の有無にかかわらず、いくつかの最先端の大規模言語モデル (LLM) を評価します。
私たちは、確立された ROUGE メトリクスと人間の評価者からの入力を使用して、要約生成のための 4 つの異なるモデルを厳密に評価します。
この結果は、当社の最高パフォーマンスの微調整モデルが既存のモデルを上回り、それぞれ ROUGE-1 値 0.810 と ROUGE-L 値 0.764 を達成していることを強調しています。
さらに、公開されている D4 データセットで微調整されたモデルの一般化可能性を評価したところ、その結果は有望であり、カスタム データセットを超えて適用できる可能性があることが示されました。

要約(オリジナル)

Improving mental health support in developing countries is a pressing need. One potential solution is the development of scalable, automated systems to conduct diagnostic screenings, which could help alleviate the burden on mental health professionals. In this work, we evaluate several state-of-the-art Large Language Models (LLMs), with and without fine-tuning, on our custom dataset for generating concise summaries from mental state examinations. We rigorously evaluate four different models for summary generation using established ROUGE metrics and input from human evaluators. The results highlight that our top-performing fine-tuned model outperforms existing models, achieving ROUGE-1 and ROUGE-L values of 0.810 and 0.764, respectively. Furthermore, we assessed the fine-tuned model’s generalizability on a publicly available D4 dataset, and the outcomes were promising, indicating its potential applicability beyond our custom dataset.

arxiv情報

著者 Manjeet Yadav,Nilesh Kumar Sahu,Mudita Chaturvedi,Snehil Gupta,Haroon R Lone
発行日 2024-03-29 12:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク