Differentiate ChatGPT-generated and Human-written Medical Texts

要約

タイトル:ChatGPTに生成された医療テキストと人間による医療テキストを区別する。

要約:
– ChatGPTなど大規模な言語モデルは、文法的に完璧で人間らしい文章を生成することができる。
– しかし、臨床記録や診断書といった医療テキストは慎重な検証が必要であり、ChatGPTによって生成された誤った医療情報は健康や一般市民に重大な影響を及ぼす可能性がある。
– この研究は、医学分野における責任あるAI生成コンテント(AIGC)に関する初めての研究の1つである。
– 人間の専門家によって書かれた医療テキストとChatGPTによって生成された医療テキストの違いを分析し、ChatGPTによって生成された医療テキストを効果的に検出・区別するための機械学習ワークフローを設計することに焦点を当てている。
– 人間によって書かれた医療テキストはより具体的で多様であり、通常はより有用な情報を含んでいる一方、ChatGPTによって生成された医療テキストは流暢さと論理に重点を置き、通常は問題の文脈に特化した有効な情報ではなく一般的な用語を表現する。
– BERTベースのモデルは、ChatGPTによって生成された医療テキストを効果的に検出することができ、F1スコアは95%を超える。

要約(オリジナル)

Background: Large language models such as ChatGPT are capable of generating grammatically perfect and human-like text content, and a large number of ChatGPT-generated texts have appeared on the Internet. However, medical texts such as clinical notes and diagnoses require rigorous validation, and erroneous medical content generated by ChatGPT could potentially lead to disinformation that poses significant harm to healthcare and the general public. Objective: This research is among the first studies on responsible and ethical AIGC (Artificial Intelligence Generated Content) in medicine. We focus on analyzing the differences between medical texts written by human experts and generated by ChatGPT, and designing machine learning workflows to effectively detect and differentiate medical texts generated by ChatGPT. Methods: We first construct a suite of datasets containing medical texts written by human experts and generated by ChatGPT. In the next step, we analyze the linguistic features of these two types of content and uncover differences in vocabulary, part-of-speech, dependency, sentiment, perplexity, etc. Finally, we design and implement machine learning methods to detect medical text generated by ChatGPT. Results: Medical texts written by humans are more concrete, more diverse, and typically contain more useful information, while medical texts generated by ChatGPT pay more attention to fluency and logic, and usually express general terminologies rather than effective information specific to the context of the problem. A BERT-based model can effectively detect medical texts generated by ChatGPT, and the F1 exceeds 95%.

arxiv情報

著者 Wenxiong Liao,Zhengliang Liu,Haixing Dai,Shaochen Xu,Zihao Wu,Yiyang Zhang,Xiaoke Huang,Dajiang Zhu,Hongmin Cai,Tianming Liu,Xiang Li
発行日 2023-04-23 07:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク