Collective Human Opinions in Semantic Textual Similarity

要約

セマンティック テキスト類似性 (STS) の主観的な性質と STS アノテーションにおける広範な不一致にも関わらず、既存のベンチマークは人間による平均評価をゴールド スタンダードとして使用してきました。
平均化により、一致度が低い例に関する人間の意見の真の分布が隠蔽され、モデルが個々の評価が表す意味上の曖昧さを捉えることができなくなります。
この研究では、STS で人間の集団的な意見を研究するために、約 15,000 の中国語文ペアと 150,000 のラベルを備えた初の不確実性を認識した STS データセットである USTS を紹介します。
分析の結果、スカラーも単一のガウスも一連の観察された判断に適切に適合しないことが明らかになりました。
さらに、現在の STS モデルは個々のインスタンスに対する人間の意見の相違によって引き起こされる分散を捉えることができず、むしろ集合的なデータセットに対する予測の信頼度を反映していることを示します。

要約(オリジナル)

Despite the subjective nature of semantic textual similarity (STS) and pervasive disagreements in STS annotation, existing benchmarks have used averaged human ratings as the gold standard. Averaging masks the true distribution of human opinions on examples of low agreement, and prevents models from capturing the semantic vagueness that the individual ratings represent. In this work, we introduce USTS, the first Uncertainty-aware STS dataset with ~15,000 Chinese sentence pairs and 150,000 labels, to study collective human opinions in STS. Analysis reveals that neither a scalar nor a single Gaussian fits a set of observed judgements adequately. We further show that current STS models cannot capture the variance caused by human disagreement on individual instances, but rather reflect the predictive confidence over the aggregate dataset.

arxiv情報

著者 Yuxia Wang,Shimin Tao,Ning Xie,Hao Yang,Timothy Baldwin,Karin Verspoor
発行日 2023-08-08 08:00:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク