A Dataset for Physical and Abstract Plausibility and Sources of Human Disagreement

要約

私たちは、英語での出来事の物理的および抽象的な妥当性を示す新しいデータセットを紹介します。
ウィキペディアから抽出された自然に発生する文に基づいて、ある程度の抽象度を浸透させ、混乱した擬似的にありえないイベントを自動的に生成します。
クラウドソーシングを使用して、フィルタリングされバランスのとれたサブセットに妥当性を示すアノテーションを付け、アノテーションの品質を確保するために広範なクレンジングを実行します。
詳細な定量的分析により、アノテーターはありえないことよりももっともらしいことを好み、ありえない出来事についてはより同意しないことが示されています。
さらに、私たちのもっともらしさのデータセットは、イベントの抽象性を具体性と同じ程度まで捉えた初めてのデータセットであり、イベントの抽象性がもっともらしさの評価に影響を与えることもわかりました。より具体的なイベントの参加者は、ありえないという認識を引き起こすのです。

要約(オリジナル)

We present a novel dataset for physical and abstract plausibility of events in English. Based on naturally occurring sentences extracted from Wikipedia, we infiltrate degrees of abstractness, and automatically generate perturbed pseudo-implausible events. We annotate a filtered and balanced subset for plausibility using crowd-sourcing, and perform extensive cleansing to ensure annotation quality. In-depth quantitative analyses indicate that annotators favor plausibility over implausibility and disagree more on implausible events. Furthermore, our plausibility dataset is the first to capture abstractness in events to the same extent as concreteness, and we find that event abstractness has an impact on plausibility ratings: more concrete event participants trigger a perception of implausibility.

arxiv情報

著者 Annerose Eichel,Sabine Schulte im Walde
発行日 2024-04-05 11:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク