ChatGPT-3.5, ChatGPT-4, Google Bard, and Microsoft Bing to Improve Health Literacy and Communication in Pediatric Populations and Beyond

要約

目的: ヘルスリテラシーの向上は、より良い健康成果に結びついています。
ただし、介入についてはほとんど研究されていません。
私たちは、大規模言語モデル (LLM) が子供やその他の集団のヘルス リテラシーを向上させる媒体として機能できるかどうかを調査します。
方法: ChatGPT-3.5、Microsoft Bing、および Google Bard を通じて 26 の異なるプロンプトを使用して、288 の条件を実行しました。
レート制限によって課される制約を考慮して、ChatGPT-4 を通じて 150 の条件のサブセットをテストしました。
主な結果の測定値は、読解成績レベル (RGL) と出力の単語数でした。
結果: すべてのモデルにわたって、「説明する」や「何ですか (ある)」などの基本的なプロンプトの出力は、10 年生の RGL と同等、またはそれを超えていました。
1 番目から 12 番目の RGL までの条件を説明するプロンプトが指定された場合、LLM には RGL に基づいて応答を調整するさまざまな能力があることがわかりました。
ChatGPT-3.5 は 7 年生から大学の新入生 RGL までの範囲の応答を提供しましたが、ChatGPT-4 は 6 年生から大学 4 年生の RGL までの応答を出力しました。
Microsoft Bing は 9 番目から 11 番目の RGL までの応答を提供し、Google Bard は 7 番目から 10 番目の RGL までの応答を提供しました。
考察: ChatGPT-3.5 と ChatGPT-4 は、低学年レベルの出力を達成する点でより優れていました。
一方、Bard と Bing は、プロンプトに関係なく、一貫して高校レベルの RGL を生成する傾向がありました。
さらに、バード氏が特定の出力を提供することを躊躇していることは、健康情報に対する慎重なアプローチを示しています。
LLM は健康コミュニケーションの強化に有望であることが実証されていますが、将来の研究では、この文脈におけるそのようなツールの精度と有効性が検証される必要があります。
示唆: LLM は、6 年生の読解レベル未満で成果物を作成するという課題に直面しています。
ただし、この閾値を超える出力を変更する能力は、小児およびそれ以降の人々のヘルスリテラシーとコミュニケーションを向上させる潜在的なメカニズムを提供します。

要約(オリジナル)

Purpose: Enhanced health literacy has been linked to better health outcomes; however, few interventions have been studied. We investigate whether large language models (LLMs) can serve as a medium to improve health literacy in children and other populations. Methods: We ran 288 conditions using 26 different prompts through ChatGPT-3.5, Microsoft Bing, and Google Bard. Given constraints imposed by rate limits, we tested a subset of 150 conditions through ChatGPT-4. The primary outcome measurements were the reading grade level (RGL) and word counts of output. Results: Across all models, output for basic prompts such as ‘Explain’ and ‘What is (are)’ were at, or exceeded, a 10th-grade RGL. When prompts were specified to explain conditions from the 1st to 12th RGL, we found that LLMs had varying abilities to tailor responses based on RGL. ChatGPT-3.5 provided responses that ranged from the 7th-grade to college freshmen RGL while ChatGPT-4 outputted responses from the 6th-grade to the college-senior RGL. Microsoft Bing provided responses from the 9th to 11th RGL while Google Bard provided responses from the 7th to 10th RGL. Discussion: ChatGPT-3.5 and ChatGPT-4 did better in achieving lower-grade level outputs. Meanwhile Bard and Bing tended to consistently produce an RGL that is at the high school level regardless of prompt. Additionally, Bard’s hesitancy in providing certain outputs indicates a cautious approach towards health information. LLMs demonstrate promise in enhancing health communication, but future research should verify the accuracy and effectiveness of such tools in this context. Implications: LLMs face challenges in crafting outputs below a sixth-grade reading level. However, their capability to modify outputs above this threshold provides a potential mechanism to improve health literacy and communication in a pediatric population and beyond.

arxiv情報

著者 Kanhai S. Amin,Linda Mayes,Pavan Khosla,Rushabh Doshi
発行日 2023-11-16 18:30:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク