Beyond Rule-based Named Entity Recognition and Relation Extraction for Process Model Generation from Natural Language Text

要約

プロセスを意識した情報システムは、日常のビジネス活動の計画、運用、最適化を容易にし、企業に多大なメリットをもたらします。
ただし、正式なビジネス プロセス モデルを設計するという時間はかかるものの必要なステップにより、これらのシステムの可能性が妨げられることがよくあります。
この課題を克服するために、自然言語テキストからのビジネス プロセス モデルの自動生成が、このステップを迅速化する有望なアプローチとして浮上しています。
一般に、自然言語からプロセス関連情報を抽出することと、実際のモデルを作成することという 2 つの重要なサブタスクを解決する必要があります。
最初のサブタスクに対するアプローチはルールベースの方法であり、特定のドメイン向けに高度に最適化されていますが、関連するアプリケーションに適応するのは困難です。
この問題を解決するために、既存のパイプラインを完全にデータ駆動にする拡張機能を提供します。
私たちは、改善されたパイプラインの競争力を実証します。これにより、特徴量エンジニアリングとルール定義に関連する大幅なオーバーヘッドが排除されるだけでなく、さまざまなデータセット、エンティティと関係タイプ、および新しいドメインへの適応が可能になります。
さらに、最初のサブタスクの利用可能な最大のデータセット (PET) には、プロセス記述内のエンティティの言及間の言語参照に関する情報が含まれていません。
しかし、これらの言及を単一の視覚要素に解決することは、高品質のプロセス モデルにとって不可欠です。
我々は、言語参照に関する情報とそれらを解決するための対応する方法を組み込んだ PET データセットの拡張を提案します。
最後に、手元のデータセットに固有の課題を詳細に分析します。

要約(オリジナル)

Process-aware information systems offer extensive advantages to companies, facilitating planning, operations, and optimization of day-to-day business activities. However, the time-consuming but required step of designing formal business process models often hampers the potential of these systems. To overcome this challenge, automated generation of business process models from natural language text has emerged as a promising approach to expedite this step. Generally two crucial subtasks have to be solved: extracting process-relevant information from natural language and creating the actual model. Approaches towards the first subtask are rule based methods, highly optimized for specific domains, but hard to adapt to related applications. To solve this issue, we present an extension to an existing pipeline, to make it entirely data driven. We demonstrate the competitiveness of our improved pipeline, which not only eliminates the substantial overhead associated with feature engineering and rule definition, but also enables adaptation to different datasets, entity and relation types, and new domains. Additionally, the largest available dataset (PET) for the first subtask, contains no information about linguistic references between mentions of entities in the process description. Yet, the resolution of these mentions into a single visual element is essential for high quality process models. We propose an extension to the PET dataset that incorporates information about linguistic references and a corresponding method for resolving them. Finally, we provide a detailed analysis of the inherent challenges in the dataset at hand.

arxiv情報

著者 Julian Neuberger,Lars Ackermann,Stefan Jablonski
発行日 2023-08-07 06:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク