オープン情報抽出 (OIE) は、ドメインに関係なく、自然言語テキストから表面関係とそれに対応する引数を抽出することを目的としています。
この文書では、中国語テキストに合わせて調整された革新的な OIE モデル APRCOIE を紹介します。
このモデルは、中国 OIE の新しいパターン形式を定義し、自動化されたパターン生成方法論を提案します。
モデルをトレーニングするために、大規模な中国の OIE データセットに手動でアノテーションを付けました。
比較評価では、APRCOIE が最先端の中国の OIE モデルを上回り、達成可能な OIE パフォーマンスの限界を大幅に拡大することを実証しました。
APRCOIE のコードとアノテーション付きデータセットは GitHub (https://github.com/jialin666/APRCOIE_v1) で公開されています。
Open information extraction (OIE) aims to extract surface relations and their corresponding arguments from natural language text, irrespective of domain. This paper presents an innovative OIE model, APRCOIE, tailored for Chinese text. Diverging from previous models, our model generates extraction patterns autonomously. The model defines a new pattern form for Chinese OIE and proposes an automated pattern generation methodology. In that way, the model can handle a wide array of complex and diverse Chinese grammatical phenomena. We design a preliminary filter based on tensor computing to conduct the extraction procedure efficiently. To train the model, we manually annotated a large-scale Chinese OIE dataset. In the comparative evaluation, we demonstrate that APRCOIE outperforms state-of-the-art Chinese OIE models and significantly expands the boundaries of achievable OIE performance. The code of APRCOIE and the annotated dataset are released on GitHub (https://github.com/jialin666/APRCOIE_v1)
著者 | Jialin Hua,Liangqing Luo,Weiying Ping,Yan Liao,Chunhai Tao,Xuewen Lub |
発行日 | 2024-12-27 02:40:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google