UniEX: An Effective and Efficient Framework for Unified Information Extraction via a Span-extractive Perspective

要約

私たちは、あらゆるスキーマ形式と互換性があり、固有表現認識、関係抽出、イベント抽出、センチメント分析などの IE タスクのリストに適用できる、普遍的な情報抽出 (IE) の新しいパラダイムを提案します。
私たちのアプローチは、テキストベースの IE タスクをトークンペア問題として変換し、統一された抽出フレームワーク、つまり UniEX を使用して、すべての抽出ターゲットを結合スパンの検出、分類、および関連付けの問題に均一に分解します。
UniEX は、スキーマベースのプロンプト情報とテキスト情報を同期的にエンコードし、自動エンコーダー言語モデルを使用して、事前定義された情報から一般化された知識を共同で学習できます。
タスク、ラベル、内部トークンなどの異種要素を統合し、スコアリングマトリックスを介して抽出対象を取得するトラフィンアテンションメカニズムを開発します。
実験結果は、UniEX が、教師あり設定を使用した $14$ ベンチマーク IE データセットでのパフォーマンスと推論速度の点で、生成ユニバーサル IE モデルよりも優れたパフォーマンスを発揮できることを示しています。
低リソースのシナリオにおける最先端のパフォーマンスも、UniEX の転送可能性と有効性を検証します。

要約(オリジナル)

We propose a new paradigm for universal information extraction (IE) that is compatible with any schema format and applicable to a list of IE tasks, such as named entity recognition, relation extraction, event extraction and sentiment analysis. Our approach converts the text-based IE tasks as the token-pair problem, which uniformly disassembles all extraction targets into joint span detection, classification and association problems with a unified extractive framework, namely UniEX. UniEX can synchronously encode schema-based prompt and textual information, and collaboratively learn the generalized knowledge from pre-defined information using the auto-encoder language models. We develop a traffine attention mechanism to integrate heterogeneous factors including tasks, labels and inside tokens, and obtain the extraction target via a scoring matrix. Experiment results show that UniEX can outperform generative universal IE models in terms of performance and inference-speed on $14$ benchmarks IE datasets with the supervised setting. The state-of-the-art performance in low-resource scenarios also verifies the transferability and effectiveness of UniEX.

arxiv情報

著者 Junyu Lu,Ping Yang,Ruyi Gan,Junjie Wang,Yuxiang Zhang,Jiaxing Zhang,Pingjian Zhang
発行日 2023-05-17 15:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク