Comparing Large Language Model AI and Human-Generated Coaching Messages for Behavioral Weight Loss


体重管理のための自動コーチング メッセージは時間とコストを節約できますが、反復的で汎用的な性質があるため、人間によるコーチングに比べて効果が制限される可能性があります。
ChatGPT のような大規模言語モデル (LLM) ベースの人工知能 (AI) チャットボットは、データ処理能力で繰り返しに対処するために、よりパーソナライズされた斬新なメッセージを提供できます。
LLM AI はより健康的なライフスタイルを促進する可能性を示していますが、LLM ベースの BWL コーチングの実現可能性と受け入れ可能性についてはまだ調査が行われていません。
参加者はまた、どのメッセージが AI によって生成されたと思われるかを特定しました。
評価は 2 つのフェーズで行われました。フェーズ 1 のメッセージは非個人的で否定的なものとして認識され、フェーズ 2 のメッセージの修正を促しました。
フェーズ 1 では、AI が生成したメッセージは人間が書いたメッセージよりも有用性が低いと評価され、66% が 3 以上の有用性評価を受けました。
しかし、フェーズ 2 では、AI メッセージは有用性に関して人間が書いたメッセージと一致し、82% が 3 以上のスコアを獲得しました。
さらに、50% が人間が書いたものと誤認されており、人間が作成したコンテンツを模倣する AI の高度さを示唆しています。
自由回答形式のフィードバックをテーマ別に分析したところ、参加者は AI の共感やパーソナライズされた提案を高く評価しているものの、それらは定型的で、信頼性が低く、データ中心すぎると感じていることが明らかになりました。
この研究は、潜在的に効果的な体重管理コーチング メッセージを作成する際の、ChatGPT のような LLM AI の予備的な実現可能性と受け入れ可能性を明らかにしています。


Automated coaching messages for weight control can save time and costs, but their repetitive, generic nature may limit their effectiveness compared to human coaching. Large language model (LLM) based artificial intelligence (AI) chatbots, like ChatGPT, could offer more personalized and novel messages to address repetition with their data-processing abilities. While LLM AI demonstrates promise to encourage healthier lifestyles, studies have yet to examine the feasibility and acceptability of LLM-based BWL coaching. 87 adults in a weight-loss trial rated ten coaching messages’ helpfulness (five human-written, five ChatGPT-generated) using a 5-point Likert scale, providing additional open-ended feedback to justify their ratings. Participants also identified which messages they believed were AI-generated. The evaluation occurred in two phases: messages in Phase 1 were perceived as impersonal and negative, prompting revisions for Phase 2 messages. In Phase 1, AI-generated messages were rated less helpful than human-written ones, with 66 percent receiving a helpfulness rating of 3 or higher. However, in Phase 2, the AI messages matched the human-written ones regarding helpfulness, with 82% scoring three or above. Additionally, 50% were misidentified as human-written, suggesting AI’s sophistication in mimicking human-generated content. A thematic analysis of open-ended feedback revealed that participants appreciated AI’s empathy and personalized suggestions but found them more formulaic, less authentic, and too data-focused. This study reveals the preliminary feasibility and acceptability of LLM AIs, like ChatGPT, in crafting potentially effective weight control coaching messages. Our findings also underscore areas for future enhancement.


著者 Zhuoran Huang,Michael P. Berry,Christina Chwyl,Gary Hsieh,Jing Wei,Evan M. Forman
発行日 2023-12-07 05:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク