要約
高品質のテキストの場合、シングルスコアメトリックは、実用的なフィードバックを提供することはめったにありません。
対照的に、Span Annotation-スパンを注釈することでテキストの問題を指摘する – は、改善を導き、洞察を提供することができます。
最近まで、SPANアノテーションは、ヒトアノテーターまたは微調整されたエンコーダーモデルに限定されていました。
この研究では、大規模な言語モデル(LLMS)でスパンアノテーションを自動化します。
専門家または熟練したクラウドワーカーのアノテーターを、3つのタスクでオープンおよび独自のLLMと比較します:データからテキストの生成評価、機械翻訳評価、および人間が作成したテキストでのプロパガンダ検出。
私たちの実験では、スパンアノテーターとしてのLLMが実装するのに簡単であり、特に人間のアノテーターよりも費用効率が高いことを示しています。
LLMSは、アノテーター自体の平均合意に匹敵するいくつかのシナリオで、熟練した人間のアノテーターとの中程度の合意を達成します。
定性分析は、推論モデルが命令チューニングされたカウンターパートを上回り、注釈のより有効な説明を提供することを示しています。
さらなる研究のために、40k以上のモデルと人間の注釈のデータセットをリリースします。
要約(オリジナル)
For high-quality texts, single-score metrics seldom provide actionable feedback. In contrast, span annotation – pointing out issues in the text by annotating their spans – can guide improvements and provide insights. Until recently, span annotation was limited to human annotators or fine-tuned encoder models. In this study, we automate span annotation with large language models (LLMs). We compare expert or skilled crowdworker annotators with open and proprietary LLMs on three tasks: data-to-text generation evaluation, machine translation evaluation, and propaganda detection in human-written texts. In our experiments, we show that LLMs as span annotators are straightforward to implement and notably more cost-efficient than human annotators. The LLMs achieve moderate agreement with skilled human annotators, in some scenarios comparable to the average agreement among the annotators themselves. Qualitative analysis shows that reasoning models outperform their instruction-tuned counterparts and provide more valid explanations for annotations. We release the dataset of more than 40k model and human annotations for further research.
arxiv情報
著者 | Zdeněk Kasner,Vilém Zouhar,Patrícia Schmidtová,Ivan Kartáč,Kristýna Onderková,Ondřej Plátek,Dimitra Gkatzia,Saad Mahamood,Ondřej Dušek,Simone Balloccu |
発行日 | 2025-04-11 17:04:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google