Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction

要約

分布の変更に対する堅牢性により、特に情報抽出タスクでは、現実的な世界でNLPモデルをうまく適用できるようになります。
ただし、ほとんどの以前の評価ベンチマークは、堅牢性の重要な測定を無視して、ペアワイズマッチングの正確性を検証することに専念しています。
このホワイトペーパーでは、同じ知識の意味の下にある構文と表現力のある分布がさまざまにドリフトする可能性のある現実世界のオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを紹介します。
私たちは、それぞれの例が、同じ意味の構造化された知識を持つ文章で構成される知識不変のクリークであるが、異なる構文的で表現力豊かな形で構成される大規模なテストベッドを設計し、注釈します。
堅牢性メトリックをさらに詳しく説明することで、そのパフォーマンスが全体的なクリークで一貫して正確である場合、モデルは堅牢であると判断されます。
過去10年間に公開された典型的なモデルと人気のある大規模な言語モデルで実験を行い、結果は、既存の成功したモデルがイライラする劣化を示し、最大23.43 F1スコアのスコアを示していることを示しています。
当社のリソースとコードは、https://github.com/qijimrc/robustで入手できます。

要約(オリジナル)

The robustness to distribution changes ensures that NLP models can be successfully applied in the realistic world, especially for information extraction tasks. However, most prior evaluation benchmarks have been devoted to validating pairwise matching correctness, ignoring the crucial measurement of robustness. In this paper, we present the first benchmark that simulates the evaluation of open information extraction models in the real world, where the syntactic and expressive distributions under the same knowledge meaning may drift variously. We design and annotate a large-scale testbed in which each example is a knowledge-invariant clique that consists of sentences with structured knowledge of the same meaning but with different syntactic and expressive forms. By further elaborating the robustness metric, a model is judged to be robust if its performance is consistently accurate on the overall cliques. We perform experiments on typical models published in the last decade as well as a popular large language model, the results show that the existing successful models exhibit a frustrating degradation, with a maximum drop of 23.43 F1 score. Our resources and code are available at https://github.com/qijimrc/ROBUST.

arxiv情報

著者 Ji Qi,Chuchun Zhang,Xiaozhi Wang,Kaisheng Zeng,Jifan Yu,Jinxin Liu,Jiuding Sun,Yuxiang Chen,Lei Hou,Juanzi Li,Bin Xu
発行日 2025-02-06 15:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク