SpaceNLI: Evaluating the Consistency of Predicting Inferences in Space

要約

私たちの知る限り、多くの自然言語推論 (NLI) データセットは、否定、時制とアスペクト、単調性、前提などの特定の意味論的現象を対象としていますが、多様なタイプの空間表現と推論を含む NLI データセットはありません。
このギャップは、SpaceNLI と呼ばれる空間推論用の NLI データセットを半自動的に作成することで埋められます。
データ サンプルは、厳選された推論パターンのセットから自動的に生成され、パターンには専門家によって推論ラベルの注釈が付けられます。
私たちは、SpaceNLI でいくつかの SOTA NLI システムをテストし、データセットの複雑さとシステムの空間推論能力を評価します。
さらに、パターン精度を導入し、パターンベースで生成されたデータサンプルに対するシステムのパフォーマンスを評価するための精度よりも信頼性が高く、より厳密な尺度であると主張します。
評価結果に基づいて、システムは空間 NLI 問題に関して中程度の結果を得ることができますが、推論パターンごとの一貫性が欠けていることがわかります。
この結果は、非射影空間推論 (特に「間」前置詞による) が最も困難であることも明らかにしています。

要約(オリジナル)

While many natural language inference (NLI) datasets target certain semantic phenomena, e.g., negation, tense & aspect, monotonicity, and presupposition, to the best of our knowledge, there is no NLI dataset that involves diverse types of spatial expressions and reasoning. We fill this gap by semi-automatically creating an NLI dataset for spatial reasoning, called SpaceNLI. The data samples are automatically generated from a curated set of reasoning patterns, where the patterns are annotated with inference labels by experts. We test several SOTA NLI systems on SpaceNLI to gauge the complexity of the dataset and the system’s capacity for spatial reasoning. Moreover, we introduce a Pattern Accuracy and argue that it is a more reliable and stricter measure than the accuracy for evaluating a system’s performance on pattern-based generated data samples. Based on the evaluation results we find that the systems obtain moderate results on the spatial NLI problems but lack consistency per inference pattern. The results also reveal that non-projective spatial inferences (especially due to the ‘between’ preposition) are the most challenging ones.

arxiv情報

著者 Lasha Abzianidze,Joost Zwarts,Yoad Winter
発行日 2023-07-05 13:08:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク