Exploring Personalized Health Support through Data-Driven, Theory-Guided LLMs: A Case Study in Sleep Health

要約

睡眠追跡装置の有病率にもかかわらず、多くの個人は、データを睡眠の健康の実用的な改善に変換するのに苦労しています。
現在の方法は、多くの場合、データ駆動型の提案を提供しますが、実生活の制約と個々のコンテキストに実現可能で適応できない場合があります。
私たちは、会話の行動変化のサポートを備えたデータ駆動型、理論ガイド、および適応型の推奨事項を通じて睡眠の健康を高めるための新しい大手言語モデル駆動のチャットボットであるHealthguruを紹介します。
Healthguruのマルチエージェントフレームワークは、ウェアラブルデバイスのデータ、コンテキスト情報、およびコンテキストマルチアームの盗賊モデルを統合して、調整された睡眠を強化するアクティビティを提案します。
このシステムは、データ駆動型の洞察と理論的行動の変化手法を組み込んでいる間、自然な会話を促進します。
16人の参加者を含む8週間の野生展開調査では、HealthGuruをベースラインチャットボットと比較しました。
結果は、睡眠期間やアクティビティスコア、高品質の応答、HealthGuruによる行動の変化のユーザーの動機の増加などの改善されたメトリックを示しています。
また、ヘルスチャットボットでのパーソナライズとユーザーエンゲージメントに関する課題と設計上の考慮事項も特定しています。

要約(オリジナル)

Despite the prevalence of sleep-tracking devices, many individuals struggle to translate data into actionable improvements in sleep health. Current methods often provide data-driven suggestions but may not be feasible and adaptive to real-life constraints and individual contexts. We present HealthGuru, a novel large language model-powered chatbot to enhance sleep health through data-driven, theory-guided, and adaptive recommendations with conversational behavior change support. HealthGuru’s multi-agent framework integrates wearable device data, contextual information, and a contextual multi-armed bandit model to suggest tailored sleep-enhancing activities. The system facilitates natural conversations while incorporating data-driven insights and theoretical behavior change techniques. Our eight-week in-the-wild deployment study with 16 participants compared HealthGuru to a baseline chatbot. Results show improved metrics like sleep duration and activity scores, higher quality responses, and increased user motivation for behavior change with HealthGuru. We also identify challenges and design considerations for personalization and user engagement in health chatbots.

arxiv情報

著者 Xingbo Wang,Janessa Griffith,Daniel A. Adler,Joey Castillo,Tanzeem Choudhury,Fei Wang
発行日 2025-02-19 17:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Exploring Personalized Health Support through Data-Driven, Theory-Guided LLMs: A Case Study in Sleep Health はコメントを受け付けていません

LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

要約

大規模な言語モデル(LLMS)は、前oraingと整列により顕著な能力を実証しています。
ただし、長いコンテキストアラインメントが不十分なため、長いコンテキストシナリオでは優れたショートコンテキストLLMSがパフォーマンスが低下する可能性があります。
このアライメントプロセスは、拡張されたコンテキストに対する人間の注釈の非実用性と、短いコンテキストパフォーマンスと長いコンテストのパフォーマンスのバランスをとることの難しさのために、依然として困難なままです。
これらの課題に対処するために、ショートコンテストの機能を内部的に転送することにより、ショートコンテキストLLMが自己進化できるようにするLONGPOを導入します。
LongPoは、LLMSを利用して、長いコンテキスト入力と圧縮された短いコンテキストの対応物を使用した同一の命令用に生成されたペアの応答を含む、自己生成された短い優先順位データから学習します。
この好みは、短いコンテキストアラインメント中に栽培されたLLMの能力と可能性を明らかにしています。
さらに、LongPoは、長いコンテキストアライメント中に短いコンテキストのパフォーマンス低下を緩和するために、短いKLから長いKL制約を組み込んでいます。
Mistral-7B-Instruct-V0.2に128Kから512Kコンテキストの長さに適用すると、LongPoはショートテキストのパフォーマンスを完全に保持し、長いコンテキストタスクとショートコンテキストの両方のタスクで素朴なSFTとDPOを大幅に上回ります。
具体的には、\ Ourmethod-Trainedモデルは、広範な長期注釈とより大きなパラメータースケールを含む優れたLLMS(GPT-4-128Kなど)に匹敵する、または上位にある長いコンテキストベンチマークで結果を達成できます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities through pretraining and alignment. However, superior short-context LLMs may underperform in long-context scenarios due to insufficient long-context alignment. This alignment process remains challenging due to the impracticality of human annotation for extended contexts and the difficulty in balancing short- and long-context performance. To address these challenges, we introduce LongPO, that enables short-context LLMs to self-evolve to excel on long-context tasks by internally transferring short-context capabilities. LongPO harnesses LLMs to learn from self-generated short-to-long preference data, comprising paired responses generated for identical instructions with long-context inputs and their compressed short-context counterparts, respectively. This preference reveals capabilities and potentials of LLMs cultivated during short-context alignment that may be diminished in under-aligned long-context scenarios. Additionally, LongPO incorporates a short-to-long KL constraint to mitigate short-context performance decline during long-context alignment. When applied to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully retains short-context performance and largely outperforms naive SFT and DPO in both long- and short-context tasks. Specifically, \ourMethod-trained models can achieve results on long-context benchmarks comparable to, or even surpassing, those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context annotation and larger parameter scales.

arxiv情報

著者 Guanzheng Chen,Xin Li,Michael Qizhe Shieh,Lidong Bing
発行日 2025-02-19 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization はコメントを受け付けていません

Beyond Single Frames: Can LMMs Comprehend Temporal and Contextual Narratives in Image Sequences?

要約

大規模なマルチモーダルモデル(LMM)は、さまざまな視覚言語のタスクで顕著な成功を収めています。
ただし、既存のベンチマークは主に単一イメージの理解に焦点を当てており、画像シーケンスの分析はほとんど説明されていません。
この制限に対処するために、spripcipherを紹介します。これは、LMMの能力を評価して、シーケンシャル画像を理解し、推論するために設計された包括的なベンチマークです。
Stripcipherは、視覚的な物語の理解、コンテキストフレームの予測、および時間的物語の並べ替えの3つの挑戦的なサブタスクと、人間が解決したデータセットと3つの挑戦的なサブタスクを備えています。
GPT-4OやQWEN2.5VLを含む16ドルの最先端のLMMSの評価は、特にシャッフルされたシーケンシャル画像を並べ替える必要があるタスクで、人間の能力と比較して大きなパフォーマンスギャップを明らかにしています。
たとえば、GPT-4oは、並べ替えサブタスクで23.93%の精度しか達成されていません。これは、人間のパフォーマンスよりも56.07%低いです。
さらなる定量分析は、画像の入力形式、順次理解におけるLLMSのパフォーマンスに影響を与えるなど、いくつかの要因を議論し、LMMの開発に残っている基本的な課題を強調しています。

要約(オリジナル)

Large Multimodal Models (LMMs) have achieved remarkable success across various visual-language tasks. However, existing benchmarks predominantly focus on single-image understanding, leaving the analysis of image sequences largely unexplored. To address this limitation, we introduce StripCipher, a comprehensive benchmark designed to evaluate capabilities of LMMs to comprehend and reason over sequential images. StripCipher comprises a human-annotated dataset and three challenging subtasks: visual narrative comprehension, contextual frame prediction, and temporal narrative reordering. Our evaluation of $16$ state-of-the-art LMMs, including GPT-4o and Qwen2.5VL, reveals a significant performance gap compared to human capabilities, particularly in tasks that require reordering shuffled sequential images. For instance, GPT-4o achieves only 23.93% accuracy in the reordering subtask, which is 56.07% lower than human performance. Further quantitative analysis discuss several factors, such as input format of images, affecting the performance of LLMs in sequential understanding, underscoring the fundamental challenges that remain in the development of LMMs.

arxiv情報

著者 Xiaochen Wang,Heming Xia,Jialin Song,Longyu Guan,Yixin Yang,Qingxiu Dong,Weiyao Luo,Yifan Pu,Yiru Wang,Xiangdi Meng,Wenjie Li,Zhifang Sui
発行日 2025-02-19 18:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Single Frames: Can LMMs Comprehend Temporal and Contextual Narratives in Image Sequences? はコメントを受け付けていません

Latent Distribution Decoupling: A Probabilistic Framework for Uncertainty-Aware Multimodal Emotion Recognition

要約

マルチモーダルマルチラベル感情認識(MMER)は、マルチモーダルデータにおける複数の感情の同時存在を特定することを目指しています。
既存の研究は、主に融合戦略の改善とモダリティへのモデリティへの依存関係のモデリングに焦点を当てています。
ただし、多くの場合、\ textbf {Aleatoricの不確実性}の影響を見落とします。これは、マルチモーダルデータに固有のノイズであり、機能表現に曖昧さを導入することによりモダリティ融合の有効性を妨げます。
この問題に対処し、アレアトリックの不確実性を効果的にモデル化するために、このペーパーでは、潜在的な感情空間確率モデリングの新しい観点から、不確実性認識(LDDU)フレームワークを備えた潜在的な感情分布分解を提案します。
具体的には、感情空間内に対照的な解像度分布メカニズムを導入して、マルチモーダルデータをモデル化し、セマンティックの特徴と不確実性の抽出を可能にします。
さらに、不確実性の分散分布を説明し、分布情報を統合する不確実な融合マルチモーダル法を設計します。
実験結果は、LDDUがCMU-MoseiおよびM $^3 $ EDデータセットで最先端のパフォーマンスを達成し、MMERの不確実性モデリングの重要性を強調していることを示しています。
コードはhttps://github.com/201983290498/lddu\_mmer.gitで入手できます。

要約(オリジナル)

Multimodal multi-label emotion recognition (MMER) aims to identify the concurrent presence of multiple emotions in multimodal data. Existing studies primarily focus on improving fusion strategies and modeling modality-to-label dependencies. However, they often overlook the impact of \textbf{aleatoric uncertainty}, which is the inherent noise in the multimodal data and hinders the effectiveness of modality fusion by introducing ambiguity into feature representations. To address this issue and effectively model aleatoric uncertainty, this paper proposes Latent emotional Distribution Decomposition with Uncertainty perception (LDDU) framework from a novel perspective of latent emotional space probabilistic modeling. Specifically, we introduce a contrastive disentangled distribution mechanism within the emotion space to model the multimodal data, allowing for the extraction of semantic features and uncertainty. Furthermore, we design an uncertainty-aware fusion multimodal method that accounts for the dispersed distribution of uncertainty and integrates distribution information. Experimental results show that LDDU achieves state-of-the-art performance on the CMU-MOSEI and M$^3$ED datasets, highlighting the importance of uncertainty modeling in MMER. Code is available at https://github.com/201983290498/lddu\_mmer.git.

arxiv情報

著者 Jingwang Huang,Jiang Zhong,Qin Lei,Jinpeng Gao,Yuming Yang,Sirui Wang,Peiguang Li,Kaiwen Wei
発行日 2025-02-19 18:53:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Latent Distribution Decoupling: A Probabilistic Framework for Uncertainty-Aware Multimodal Emotion Recognition はコメントを受け付けていません

LIDDIA: Language-based Intelligent Drug Discovery Agent

要約

創薬は長く、高価で複雑なプロセスであり、潜在的な治療の広大な空間を検索するために何年も費やすことができるヒトの薬化学者に大きく依存しています。
化学のための人工知能の最近の進歩は、個々の創薬タスクを促進しようとしています。
ただし、創薬プロセスをナビゲートできるインテリジェントエージェントには、重要な必要性が残っています。
この目的に向かって、シリコでの創薬プロセスをインテリジェントにナビゲートできる自律剤であるリディアを紹介します。
リディアは、大規模な言語モデルの推論能力を活用することにより、自律的な創薬のための低コストで高度に適応性のあるツールとして機能します。
リディアを包括的に調べて、(1)30の臨床的に関連するターゲットの70%以上で重要な医薬品基準を満たす分子を生成できることを示しています。
癌の重要な標的であるEGFRの新しい薬物候補。

要約(オリジナル)

Drug discovery is a long, expensive, and complex process, relying heavily on human medicinal chemists, who can spend years searching the vast space of potential therapies. Recent advances in artificial intelligence for chemistry have sought to expedite individual drug discovery tasks; however, there remains a critical need for an intelligent agent that can navigate the drug discovery process. Towards this end, we introduce LIDDiA, an autonomous agent capable of intelligently navigating the drug discovery process in silico. By leveraging the reasoning capabilities of large language models, LIDDiA serves as a low-cost and highly-adaptable tool for autonomous drug discovery. We comprehensively examine LIDDiA, demonstrating that (1) it can generate molecules meeting key pharmaceutical criteria on over 70% of 30 clinically relevant targets, (2) it intelligently balances exploration and exploitation in the chemical space, and (3) it can identify promising novel drug candidates on EGFR, a critical target for cancers.

arxiv情報

著者 Reza Averly,Frazier N. Baker,Xia Ning
発行日 2025-02-19 18:56:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LIDDIA: Language-based Intelligent Drug Discovery Agent はコメントを受け付けていません

Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

要約

大規模な言語モデルのテスト時間計算をスケーリングすることで、ベンチマークの推論に関する印象的なパフォーマンスが実証されています。
ただし、テスト時間スケーリングの既存の評価により、推論システムは常に提供される質問に答えを与えるべきであるという強い仮定が得られます。
これは、モデルがその答えに自信を持っているかどうか、および常に応答を提供することが適切かどうかについての懸念を見落としています。
これらの懸念に対処するために、モデル応答のしきい値の推論中に信頼スコアを抽出します。
推論時間に計算予算を増やすことは、モデルがより多くの質問に正しく答えるのに役立つだけでなく、正しい応答に対する信頼を高めることができることがわかります。
次に、非ゼロレベルの応答リスクのある設定を考慮して、評価中にゼロリスク応答の現在のパラダイムを拡張し、これらの設定に基づく評価を報告するためのレシピを提案します。

要約(オリジナル)

Scaling the test-time compute of large language models has demonstrated impressive performance on reasoning benchmarks. However, existing evaluations of test-time scaling make the strong assumption that a reasoning system should always give an answer to any question provided. This overlooks concerns about whether a model is confident in its answer, and whether it is appropriate to always provide a response. To address these concerns, we extract confidence scores during reasoning for thresholding model responses. We find that increasing compute budget at inference time not only helps models answer more questions correctly, but also increases confidence in correct responses. We then extend the current paradigm of zero-risk responses during evaluation by considering settings with non-zero levels of response risk, and suggest a recipe for reporting evaluations under these settings.

arxiv情報

著者 William Jurayj,Jeffrey Cheng,Benjamin Van Durme
発行日 2025-02-19 18:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering はコメントを受け付けていません

MuDAF: Long-Context Multi-Document Attention Focusing through Contrastive Learning on Attention Heads

要約

大規模な言語モデル(LLM)は、入力の無関係な情報のために気を散らす注意を頻繁に示し、長期コンテキスト機能を重大に損なうことがあります。
長いコンテキストの折り畳みにおける検索ヘッドの有効性に関する最近の研究に触発された私たちは、このような検索ヘッドを直接改善することにより、この気晴らしの問題に対処することを目指しています。
対照的な学習を通じて頭レベルでの注意分布を明示的に最適化する新しい方法であるマルチドキュメントの注意フォーカシング(MUDAF)を提案します。
実験結果によると、MUDAFは、特にマルチドキュメントの質問回答において、LLMSのパフォーマンスに応答する長いコンテストの質問を大幅に改善できます。
検索スコアと注意の視覚化に関する広範な評価は、Mudafが関連する情報に焦点を当て、注意の注意散漫を減らすために注意を向ける大きな可能性を持っていることを示しています。

要約(オリジナル)

Large Language Models (LLMs) frequently show distracted attention due to irrelevant information in the input, which severely impairs their long-context capabilities. Inspired by recent studies on the effectiveness of retrieval heads in long-context factutality, we aim at addressing this distraction issue through improving such retrieval heads directly. We propose Multi-Document Attention Focusing (MuDAF), a novel method that explicitly optimizes the attention distribution at the head level through contrastive learning. According to the experimental results, MuDAF can significantly improve the long-context question answering performance of LLMs, especially in multi-document question answering. Extensive evaluations on retrieval scores and attention visualizations show that MuDAF possesses great potential in making attention heads more focused on relevant information and reducing attention distractions.

arxiv情報

著者 Weihao Liu,Ning Wu,Shiping Yang,Wenbiao Ding,Shining Liang,Ming Gong,Dongmei Zhang
発行日 2025-02-19 18:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MuDAF: Long-Context Multi-Document Attention Focusing through Contrastive Learning on Attention Heads はコメントを受け付けていません

Theory on Mixture-of-Experts in Continual Learning

要約

継続的な学習(CL)は、時間の経過とともに到着する新しいタスクに適応する能力のために、大きな注目を集めています。
(古いタスクの)壊滅的な忘却は、モデルが新しいタスクに適応するため、CLの主要な問題として特定されています。
Experts(MOE)モデルは最近、ゲーティングネットワークを採用して複数の専門家の間で多様なタスクをスパース化および配布することにより、CLで壊滅的な忘却を効果的に緩和することが最近示されました。
ただし、MOEの理論的分析とCLの学習パフォーマンスへの影響が不足しています。
このホワイトペーパーでは、オーバーパラメーター化された線形回帰タスクのレンズを介したCLにおけるMOEの影響を特徴付ける最初の理論的結果を提供します。
MOEモデルが専門家を多様化してさまざまなタスクに特化できることを証明することにより、MOEの利益を確立し、そのルーターは各タスクに適した専門家を選択し、すべての専門家の負荷のバランスをとることを学びます。
私たちの研究はさらに、CLのMOEがシステムの収束を達成するのに十分なトレーニングラウンドの後、ゲーティングネットワークの更新を終了する必要があるという興味深い事実を示唆しています。
さらに、CLの学習パフォーマンスにおけるMOEの利点を特徴付けるために、予想される忘却エラーと全体的な一般化エラーの明示的な表現を提供します。
興味深いことに、より多くの専門家を追加するには、収束の前に追加のラウンドが必要です。これは、学習パフォーマンスを向上させない場合があります。
最後に、合成データセットと実際のデータセットの両方で実験を実施して、これらの洞察を線形モデルからディープニューラルネットワーク(DNNS)に拡張します。これは、CLのMOEの実用的なアルゴリズム設計にも光を当てています。

要約(オリジナル)

Continual learning (CL) has garnered significant attention because of its ability to adapt to new tasks that arrive over time. Catastrophic forgetting (of old tasks) has been identified as a major issue in CL, as the model adapts to new tasks. The Mixture-of-Experts (MoE) model has recently been shown to effectively mitigate catastrophic forgetting in CL, by employing a gating network to sparsify and distribute diverse tasks among multiple experts. However, there is a lack of theoretical analysis of MoE and its impact on the learning performance in CL. This paper provides the first theoretical results to characterize the impact of MoE in CL via the lens of overparameterized linear regression tasks. We establish the benefit of MoE over a single expert by proving that the MoE model can diversify its experts to specialize in different tasks, while its router learns to select the right expert for each task and balance the loads across all experts. Our study further suggests an intriguing fact that the MoE in CL needs to terminate the update of the gating network after sufficient training rounds to attain system convergence, which is not needed in the existing MoE studies that do not consider the continual task arrival. Furthermore, we provide explicit expressions for the expected forgetting and overall generalization error to characterize the benefit of MoE in the learning performance in CL. Interestingly, adding more experts requires additional rounds before convergence, which may not enhance the learning performance. Finally, we conduct experiments on both synthetic and real datasets to extend these insights from linear models to deep neural networks (DNNs), which also shed light on the practical algorithm design for MoE in CL.

arxiv情報

著者 Hongbo Li,Sen Lin,Lingjie Duan,Yingbin Liang,Ness B. Shroff
発行日 2025-02-19 14:35:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Theory on Mixture-of-Experts in Continual Learning はコメントを受け付けていません

Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient

要約

専門家(MOE)のアーキテクチャの混合は、大規模な機械学習モデルの研究と現実世界の応用の両方で計算効率を大幅に向上させています。
ただし、メモリの制約の下でのスケーラビリティと効率は比較的目立たないままです。
この作業では、アクティブなパラメーターの数、データセットサイズ、専門家の数などの重要な要因を組み込んだ、密集したMOEモデルとMOEモデルの共同スケーリング法則を提示します。
調査結果は、固定メモリと計算予算の下で最適なMOE構成を選択するための原則的なフレームワークを提供します。
驚くべきことに、MOEモデルは、従来の知恵と矛盾する密なモデルよりも記憶効率が高いことを示しています。
スケーリング法の理論的予測を導き出して検証するために、最大2.7Bのアクティブパラメーターと最大5Bの合計パラメーターで280以上の実験を実施します。
これらの結果は、実用的な大規模なトレーニングシナリオでMOEモデルを設計および展開するための実用的な洞察を提供します。

要約(オリジナル)

Mixture of Experts (MoE) architectures have significantly increased computational efficiency in both research and real-world applications of large-scale machine learning models. However, their scalability and efficiency under memory constraints remain relatively underexplored. In this work, we present joint scaling laws for dense and MoE models, incorporating key factors such as the number of active parameters, dataset size, and the number of experts. Our findings provide a principled framework for selecting the optimal MoE configuration under fixed memory and compute budgets. Surprisingly, we show that MoE models can be more memory-efficient than dense models, contradicting conventional wisdom. To derive and validate the theoretical predictions of our scaling laws, we conduct over 280 experiments with up to 2.7B active parameters and up to 5B total parameters. These results offer actionable insights for designing and deploying MoE models in practical large-scale training scenarios.

arxiv情報

著者 Jan Ludziejewski,Maciej Pióro,Jakub Krajewski,Maciej Stefaniak,Michał Krutul,Jan Małaśnicki,Marek Cygan,Piotr Sankowski,Kamil Adamczewski,Piotr Miłoś,Sebastian Jaszczur
発行日 2025-02-19 14:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient はコメントを受け付けていません

VITAL: A New Dataset for Benchmarking Pluralistic Alignment in Healthcare

要約

アライメント技術は、大規模な言語モデル(LLM)が人間の価値と一致する出力を生成することを保証するための中心となっています。
ただし、既存のアラインメントパラダイムは、多くの場合、平均またはモノリシックな好みをモデル化し、文化、人口統計、コミュニティ全体の視点の多様性を説明できません。
この制限は、文化、宗教、個人的価値、矛盾する意見の影響のために複数性が不可欠である健康関連のシナリオで特に重要です。
多元的なアライメントの進歩にもかかわらず、公開されているデータセットが利用できないため、おそらく健康に焦点を当てた事前の研究はありません。
このギャップに対処するために、13.1Kの価値を低下させた状況と、多元的アライメント方法を評価およびベンチマークするように設計された健康に焦点を当てた5.4kの複数選択質問を含む新しいベンチマークデータセットを紹介します。
さまざまなサイズの8つのLLMを広範囲に評価することにより、既存の多元的なアライメント技術が、多様なヘルスケアの信念に効果的に対応するのに不十分であることを実証し、特定のドメインで調整されたAIアライメントの必要性を強調しています。
この作業は、現在のアプローチの制限を強調し、健康固有のアライメントソリューションを開発するための基礎を築きます。

要約(オリジナル)

Alignment techniques have become central to ensuring that Large Language Models (LLMs) generate outputs consistent with human values. However, existing alignment paradigms often model an averaged or monolithic preference, failing to account for the diversity of perspectives across cultures, demographics, and communities. This limitation is particularly critical in health-related scenarios, where plurality is essential due to the influence of culture, religion, personal values, and conflicting opinions. Despite progress in pluralistic alignment, no prior work has focused on health, likely due to the unavailability of publicly available datasets. To address this gap, we introduce VITAL, a new benchmark dataset comprising 13.1K value-laden situations and 5.4K multiple-choice questions focused on health, designed to assess and benchmark pluralistic alignment methodologies. Through extensive evaluation of eight LLMs of varying sizes, we demonstrate that existing pluralistic alignment techniques fall short in effectively accommodating diverse healthcare beliefs, underscoring the need for tailored AI alignment in specific domains. This work highlights the limitations of current approaches and lays the groundwork for developing health-specific alignment solutions.

arxiv情報

著者 Anudeex Shetty,Amin Beheshti,Mark Dras,Usman Naseem
発行日 2025-02-19 14:38:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | VITAL: A New Dataset for Benchmarking Pluralistic Alignment in Healthcare はコメントを受け付けていません