Résumé Parsing as Hierarchical Sequence Labeling: An Empirical Study

要約

レポートからの情報の抽出は、通常 2 段階の問題として定式化されます。最初にドキュメントがセクションに分割され、次に各セクションが個別に処理されてターゲット エンティティが抽出されます。
代わりに、問題全体を 2 つのレベル (ラインとトークン) のシーケンス ラベリングとしてキャストし、両方のタスクを同時に解決するためのモデル アーキテクチャを研究します。
私たちは、英語、フランス語、中国語、スペイン語、ドイツ語、ポルトガル語、スウェーデン語で高品質の論文解析コーパスを構築します。
これらのコーパスに基づいて、情報抽出タスクに対する提案されたモデルの有効性を実証し、以前の研究で導入されたアプローチを上回る実験結果を示します。
私たちは提案されたアーキテクチャのアブレーション研究を実施します。
また、モデルのパフォーマンスとリソース効率の両方を分析し、運用環境のコンテキストでのモデル展開のトレードオフについても説明します。

要約(オリジナル)

Extracting information from r\’esum\’es is typically formulated as a two-stage problem, where the document is first segmented into sections and then each section is processed individually to extract the target entities. Instead, we cast the whole problem as sequence labeling in two levels — lines and tokens — and study model architectures for solving both tasks simultaneously. We build high-quality r\’esum\’e parsing corpora in English, French, Chinese, Spanish, German, Portuguese, and Swedish. Based on these corpora, we present experimental results that demonstrate the effectiveness of the proposed models for the information extraction task, outperforming approaches introduced in previous work. We conduct an ablation study of the proposed architectures. We also analyze both model performance and resource efficiency, and describe the trade-offs for model deployment in the context of a production environment.

arxiv情報

著者 Federico Retyk,Hermenegildo Fabregat,Juan Aizpuru,Mariana Taglio,Rabih Zbib
発行日 2023-09-13 15:17:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, I.2.7 パーマリンク