要約
大規模な言語モデルの可用性と能力のために、ヘルスケアを含め、会話アシスタントはますます人気があります。
より伝統的なアーキテクチャの利点と短所、および生成AIに基づくものの利点と短所を強調できる、実際の利害関係者との制御された調査評価が必要です。
グループ内ユーザー調査を提示して、心不全の患者が食品中の塩分について尋ねることを許可する会話アシスタントの2つのバージョンを比較します。
システムの1つのバージョンは、神経共和生なアーキテクチャを使用して社内で開発され、1つはChatGptに基づいています。
この評価は、社内システムがより正確で、より多くのタスクを完了し、ChatGPTに基づくタスクよりも冗長でないことを示しています。
一方、CHATGPTに基づくものは、音声エラーが少なくなり、タスクを完了するためにはより少ない明確化が必要です。
患者は、一方よりも好みを示しません。
要約(オリジナル)
Conversational assistants are becoming more and more popular, including in healthcare, partly because of the availability and capabilities of Large Language Models. There is a need for controlled, probing evaluations with real stakeholders which can highlight advantages and disadvantages of more traditional architectures and those based on generative AI. We present a within-group user study to compare two versions of a conversational assistant that allows heart failure patients to ask about salt content in food. One version of the system was developed in-house with a neurosymbolic architecture, and one is based on ChatGPT. The evaluation shows that the in-house system is more accurate, completes more tasks and is less verbose than the one based on ChatGPT; on the other hand, the one based on ChatGPT makes fewer speech errors and requires fewer clarifications to complete the task. Patients show no preference for one over the other.
arxiv情報
著者 | Anuja Tayal,Devika Salunke,Barbara Di Eugenio,Paula Allen-Meares,Eulalia Puig Abril,Olga Garcia,Carolyn Dickens,Andrew Boyd |
発行日 | 2025-04-24 17:16:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google