Development of a Reliable and Accessible Caregiving Language Model (CaLM)

要約

プロの介護者とは異なり、家族介護者は正式な準備や訓練を受けずにこの役割を担うことがよくあります。
このため、家族の介護者の質の高いケアを提供する能力を強化することが緊急に必要とされています。
大規模な言語モデルは、教育ツールとして、または介護の補助として介護者をサポートするための基礎テクノロジーとして使用できる可能性があります。
この研究は、FM と介護知識ベースを使用して信頼性の高い介護言語モデル (CaLM) を開発し、より少ないコンピューティング リソースを必要とする小規模な FM を使用してアクセスしやすい CaLM を開発し、大規模な FM と比較してモデルのパフォーマンスを評価することを目的としました。
私たちは、検索拡張生成 (RAG) フレームワークと FM 微調整を組み合わせて、介護知識ベースに基づいたモデルを構築することで FM 回答の品質を向上させる CaLM を開発しました。
CaLM の FM の候補として 2 つの小型 FM (LLaMA-2 および 7B パラメータの Falcon) を使用し、ベンチマークとしてより大型の FM GPT-3.5 を使用しました。
インターネット上でさまざまな資料を収集し、介護知識のベースを構築しました。
この研究では、アルツハイマー病関連認知症患者の介護者に焦点を当てました。
言語モデルとその信頼性を評価する際に一般的に使用されるベンチマーク指標を使用してモデルのパフォーマンスを評価し、正確な回答を提供します。
RAG フレームワークにより、この研究で使用されたすべての FM のパフォーマンスがすべての尺度にわたって向上しました。
予想通り、大規模 FM はすべての指標において小規模 FM よりも優れたパフォーマンスを示しました。
最も興味深い結果は、RAG を使用して細かく調整された FM のパフォーマンスが、すべてのメトリクスにわたって GPT 3.5 よりも大幅に優れていたことです。
微調整された LLaMA-2 小型 FM は、回答を含む参照を返す際に (RAG を使用した場合でも) GPT 3.5 よりも優れたパフォーマンスを示しました。
この研究は、介護分野に特有の知識ベースを備えた小規模な FM を使用することで、信頼性が高くアクセスしやすい CaLM を開発できることを示しています。

要約(オリジナル)

Unlike professional caregivers, family caregivers often assume this role without formal preparation or training. Because of this, there is an urgent need to enhance the capacity of family caregivers to provide quality care. Large language models can potentially be used as a foundation technology for supporting caregivers as educational tools or as adjunct to care. This study aimed to develop a reliable Caregiving Language Model (CaLM) by using FMs and a caregiving knowledge base, develop an accessible CaLM using a small FM that requires fewer computing resources, and evaluate the performance of the model compared to a large FM. We developed CaLM using the Retrieval Augmented Generation (RAG) framework combined with FM fine-tuning for improving the quality of FM answers by grounding the model on a caregiving knowledge base. We used two small FMs as candidates for the FM of CaLM (LLaMA-2 and Falcon with 7B parameters) and larger FM GPT-3.5 as a benchmark. We developed the caregiving knowledge base by gathering various types of documents from the Internet. In this study, we focused on caregivers of individuals with Alzheimer’s Disease Related Dementias. We evaluated the models’ performance using the benchmark metrics commonly used in evaluating language models and their reliability to provide accurate references with the answers. The RAG framework improved the performance of all FMs used in this study across all measures. As expected, the large FM performed better than small FMs across all metrics. The most interesting result is that small fine-tuned FMs with RAG performed significantly better than GPT 3.5 across all metrics. The fine-tuned LLaMA-2 small FM performed better than GPT 3.5 (even with RAG) in returning references with the answers. The study shows that reliable and accessible CaLM can be developed by using small FMs with a knowledge base specific to the caregiving domain.

arxiv情報

著者 Bambang Parmanto,Bayu Aryoyudanta,Wilbert Soekinto,I Made Agus Setiawan,Yuhan Wang,Haomin Hu,Andi Saptono,Yong K. Choi
発行日 2024-03-11 16:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク