Data Augmentation Techniques for Process Extraction from Scientific Publications

要約

私たちは、科学出版物でプロセス抽出タスクのためのデータ拡張テクニックを紹介します。
プロセス抽出タスクをシーケンス ラベリング タスクとしてキャストし、文内のすべてのエンティティを識別し、プロセス固有の役割に従ってラベルを付けます。
提案手法は、(1)元の文のプロセス固有の情報、(2)役割ラベルの類似性、(3)文の類似性を利用して、意味のある拡張文を作成することを試みます。
提案された方法により、化学ドメイン データセットでトレーニングされたプロセス抽出モデルのパフォーマンスが大幅に向上し、パフォーマンス精度 (F スコア) が最大 12.3 ポイント向上することを実証します。
提案された方法は、特に小さなデータセットでトレーニングする場合、または化学やその他の科学分野などのリソースが少ない環境でトレーニングする場合に、過剰適合を削減する可能性があります。

要約(オリジナル)

We present data augmentation techniques for process extraction tasks in scientific publications. We cast the process extraction task as a sequence labeling task where we identify all the entities in a sentence and label them according to their process-specific roles. The proposed method attempts to create meaningful augmented sentences by utilizing (1) process-specific information from the original sentence, (2) role label similarity, and (3) sentence similarity. We demonstrate that the proposed methods substantially improve the performance of the process extraction model trained on chemistry domain datasets, up to 12.3 points improvement in performance accuracy (F-score). The proposed methods could potentially reduce overfitting as well, especially when training on small datasets or in a low-resource setting such as in chemistry and other scientific domains.

arxiv情報

著者 Yuni Susanti
発行日 2024-05-23 14:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク