It’s Difficult to be Neutral — Human and LLM-based Sentiment Annotation of Patient Comments

要約

感情分析は、医療サービスに的を絞った改善を提供するために、患者の声を集約するための重要なツールです。
このための前提条件は、センチメントの注釈が付けられたドメイン内データが利用できることです。
この記事では、ノルウェー公衆衛生研究所 (NIPH) が収集した患者調査の自由記述コメントに感情の注釈を追加する取り組みについて説明します。
ただし、特にドメインの専門知識が必要な場合、アノテーションは時間とリソースを大量に消費するプロセスになる可能性があります。
したがって、大規模言語モデル (LLM) をアノテーターとして使用して、人間によるアノテーションに代わる可能性のある方法も評価します。
私たちは、ノルウェー語用に公開されている 2 つの事前トレーニング済み LLM に対するアプローチの広範な評価を実行し、プロンプトとコンテキスト内学習のさまざまな構成を実験し、それらのパフォーマンスを人間のアノテーターと比較しました。
ゼロショット実行の場合でも、モデルはバイナリセンチメントのベースラインを十分に上回るパフォーマンスを示しますが、完全なデータセットでは依然として人間のアノテーターと競合できないことがわかりました。

要約(オリジナル)

Sentiment analysis is an important tool for aggregating patient voices, in order to provide targeted improvements in healthcare services. A prerequisite for this is the availability of in-domain data annotated for sentiment. This article documents an effort to add sentiment annotations to free-text comments in patient surveys collected by the Norwegian Institute of Public Health (NIPH). However, annotation can be a time-consuming and resource-intensive process, particularly when it requires domain expertise. We therefore also evaluate a possible alternative to human annotation, using large language models (LLMs) as annotators. We perform an extensive evaluation of the approach for two openly available pretrained LLMs for Norwegian, experimenting with different configurations of prompts and in-context learning, comparing their performance to human annotators. We find that even for zero-shot runs, models perform well above the baseline for binary sentiment, but still cannot compete with human annotators on the full dataset.

arxiv情報

著者 Petter Mæhlum,David Samuel,Rebecka Maria Norman,Elma Jelin,Øyvind Andresen Bjertnæs,Lilja Øvrelid,Erik Velldal
発行日 2024-04-29 16:19:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク