要約
健康分野では、ほとんどの大規模言語モデル (LLM) 研究が臨床タスクに焦点を当ててきました。
ただし、モバイル デバイスやウェアラブル デバイスは、そのようなタスクに組み込まれることはほとんどありませんが、個人の健康状態を監視するための豊富な長期データを提供します。
ここでは、時系列の個人健康データを理解し推論するために Gemini から微調整された Personal Health Large Language Model (PH-LLM) を紹介します。
私たちは、1) 睡眠パターン、身体活動、生理学的反応からパーソナライズされた洞察と推奨事項の生成、2) 専門分野の知識、3) 自己申告による睡眠結果の予測をテストする 3 つのデータセットを作成および厳選しました。
最初のタスクでは、睡眠とフィットネスにおける現実世界のシナリオを評価するために、分野の専門家と協力して 857 件のケーススタディを設計しました。
ドメイン固有のルーブリックの包括的な評価を通じて、Gemini Ultra 1.0 と PH-LLM はフィットネスにおけるエキスパートのパフォーマンスと統計的に差がなく、睡眠に関してはエキスパートが依然として優れている一方で、PH-LLM を微調整することで関連ドメインの使用に大幅な改善がもたらされたことがわかりました。
睡眠に関する洞察のための知識と情報をパーソナライズします。
私たちは、多肢選択式の睡眠医学とフィットネス検査を使用して、PH-LLM ドメインの知識を評価しました。
PH-LLM は睡眠で 79%、フィットネスで 88% を達成し、人間の専門家のサンプルからの平均スコアを上回りました。
最後に、ウェアラブル データのテキストおよびマルチモーダル エンコーディング表現から自己報告の睡眠の質の結果を予測するように PH-LLM をトレーニングし、特殊な識別モデルのパフォーマンスと一致するにはマルチモーダル エンコーディングが必要であることを実証しました。
安全性が重要な個人の健康領域ではさらなる開発と評価が必要ですが、これらの結果は、Gemini モデルの幅広い知識と機能、そして PH-LLM で行われたように、個人の健康アプリケーション向けに生理学的データを文脈化する利点の両方を実証しています。
要約(オリジナル)
In health, most large language model (LLM) research has focused on clinical tasks. However, mobile and wearable devices, which are rarely integrated into such tasks, provide rich, longitudinal data for personal health monitoring. Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from Gemini for understanding and reasoning over numerical time-series personal health data. We created and curated three datasets that test 1) production of personalized insights and recommendations from sleep patterns, physical activity, and physiological responses, 2) expert domain knowledge, and 3) prediction of self-reported sleep outcomes. For the first task we designed 857 case studies in collaboration with domain experts to assess real-world scenarios in sleep and fitness. Through comprehensive evaluation of domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not statistically different from expert performance in fitness and, while experts remain superior for sleep, fine-tuning PH-LLM provided significant improvements in using relevant domain knowledge and personalizing information for sleep insights. We evaluated PH-LLM domain knowledge using multiple choice sleep medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on fitness, exceeding average scores from a sample of human experts. Finally, we trained PH-LLM to predict self-reported sleep quality outcomes from textual and multimodal encoding representations of wearable data, and demonstrate that multimodal encoding is required to match performance of specialized discriminative models. Although further development and evaluation are necessary in the safety-critical personal health domain, these results demonstrate both the broad knowledge and capabilities of Gemini models and the benefit of contextualizing physiological data for personal health applications as done with PH-LLM.
arxiv情報
著者 | Justin Cosentino,Anastasiya Belyaeva,Xin Liu,Nicholas A. Furlotte,Zhun Yang,Chace Lee,Erik Schenck,Yojan Patel,Jian Cui,Logan Douglas Schneider,Robby Bryant,Ryan G. Gomes,Allen Jiang,Roy Lee,Yun Liu,Javier Perez,Jameson K. Rogers,Cathy Speed,Shyam Tailor,Megan Walker,Jeffrey Yu,Tim Althoff,Conor Heneghan,John Hernandez,Mark Malhotra,Leor Stern,Yossi Matias,Greg S. Corrado,Shwetak Patel,Shravya Shetty,Jiening Zhan,Shruthi Prabhakara,Daniel McDuff,Cory Y. McLean |
発行日 | 2024-06-10 17:16:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google