要約
我々は、付随する評価メトリクスを伴う抽象意味表現 (AMR) 解析のための課題セットである Granular AMR Parsing Evaluation Suite (GrAPES) を紹介します。
AMR パーサーは、標準 AMR 評価指標 Smatch で、報告されているアノテーター間の一致に近い、またはそれを上回る高いスコアを取得できるようになりました。
しかし、それは AMR 解析が解決されたことを意味するものではありません。
実際、以前の研究における人間による評価では、現在のパーサーがノード ラベルやグラフ構造で文の意味を大幅に歪めるエラーを依然として頻繁に犯していることが示されています。
ここでは、実用的、技術的、言語的に興味深いさまざまな現象に関して AMR パーサーをテストする評価スイートを提供します。
私たちの 36 のカテゴリは、目に見えるものと見えないラベルから、構造的な一般化、相互参照に至るまで多岐にわたります。
GraPES は、現在の AMR パーサーの能力と欠点を徹底的に明らかにします。
要約(オリジナル)
We present the Granular AMR Parsing Evaluation Suite (GrAPES), a challenge set for Abstract Meaning Representation (AMR) parsing with accompanying evaluation metrics. AMR parsers now obtain high scores on the standard AMR evaluation metric Smatch, close to or even above reported inter-annotator agreement. But that does not mean that AMR parsing is solved; in fact, human evaluation in previous work indicates that current parsers still quite frequently make errors on node labels or graph structure that substantially distort sentence meaning. Here, we provide an evaluation suite that tests AMR parsers on a range of phenomena of practical, technical, and linguistic interest. Our 36 categories range from seen and unseen labels, to structural generalization, to coreference. GrAPES reveals in depth the abilities and shortcomings of current AMR parsers.
arxiv情報
著者 | Jonas Groschwitz,Shay B. Cohen,Lucia Donatelli,Meaghan Fowlie |
発行日 | 2023-12-06 13:19:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google