Mirror: A Universal Framework for Various Information Extraction Tasks

要約

データ形式やタスクのバリエーションが多様であるため、情報抽出タスク間で知識を共有することは常に課題でした。
一方、この相違は情報の無駄につながり、実際のシナリオで複雑なアプリケーションを構築する際の困難を増大させます。
最近の研究では、IE タスクをトリプレット抽出問題として定式化することがよくあります。
ただし、このようなパラダイムはマルチスパンおよび n 値抽出をサポートしていないため、汎用性が低くなります。
この目的を達成するために、我々は IE の問題を統合されたマルチスロット タプルに再編成し、さまざまな IE タスクのための普遍的なフレームワーク、つまりミラーを提案します。
具体的には、既存の IE タスクをマルチスパン循環グラフ抽出問題として再構築し、単一ステップですべてのスパンを抽出する非自己回帰グラフ復号アルゴリズムを考案しました。
このグラフ構造は非常に多用途であり、複雑な IE タスクだけでなく、機械による読解や分類タスクもサポートしていることは注目に値します。
モデルの事前トレーニング用に 57 のデータセットを含むコーパスを手動で構築し、8 つの下流タスクにわたって 30 のデータセットに対して実験を実施します。
実験結果は、私たちのモデルが適切な互換性を持ち、少数ショットおよびゼロショット設定で SOTA システムを上回るパフォーマンスまたは競争力のあるパフォーマンスに達することを示しています。
コード、モデルの重み、事前トレーニング コーパスは https://github.com/Spico197/Mirror で入手できます。

要約(オリジナル)

Sharing knowledge between information extraction tasks has always been a challenge due to the diverse data formats and task variations. Meanwhile, this divergence leads to information waste and increases difficulties in building complex applications in real scenarios. Recent studies often formulate IE tasks as a triplet extraction problem. However, such a paradigm does not support multi-span and n-ary extraction, leading to weak versatility. To this end, we reorganize IE problems into unified multi-slot tuples and propose a universal framework for various IE tasks, namely Mirror. Specifically, we recast existing IE tasks as a multi-span cyclic graph extraction problem and devise a non-autoregressive graph decoding algorithm to extract all spans in a single step. It is worth noting that this graph structure is incredibly versatile, and it supports not only complex IE tasks, but also machine reading comprehension and classification tasks. We manually construct a corpus containing 57 datasets for model pretraining, and conduct experiments on 30 datasets across 8 downstream tasks. The experimental results demonstrate that our model has decent compatibility and outperforms or reaches competitive performance with SOTA systems under few-shot and zero-shot settings. The code, model weights, and pretraining corpus are available at https://github.com/Spico197/Mirror .

arxiv情報

著者 Tong Zhu,Junfei Ren,Zijian Yu,Mengsong Wu,Guoliang Zhang,Xiaoye Qu,Wenliang Chen,Zhefeng Wang,Baoxing Huai,Min Zhang
発行日 2023-11-09 14:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク