要約
業界では、テキスト データから因果情報を抽出することは、潜在的な障害を特定して軽減し、プロセスの効率を高め、品質の向上を促し、さまざまな運用上の課題に対処するために非常に重要です。
本稿では、半導体製造業界における実際の工業文書から因果情報を抽出するための自動化手法の開発に関する研究を紹介します。
この研究では、シングルステージシーケンスタギング(SST)とマルチステージシーケンスタギング(MST)の2種類の因果情報抽出手法を提案し、プレゼンテーションスライドやFMEA(故障モード)などの半導体製造会社の既存文書を使用してそのパフォーマンスを評価しています。
および効果分析)ドキュメント。
この研究では、下流タスクに対する表現学習の影響も調査しています。
提示されたケーススタディは、産業文書から因果関係情報を抽出するために提案された MST 手法が、93% の F1 スコアで、特に FMEA などの半構造化文書の実用的なアプリケーションに適していることを示しています。
さらに、MST は、プレゼンテーション スライドから抽出されたテキストで 73\% の F1 スコアを達成しました。
最後に、この調査では、ドメインとより整合性の高い言語モデルを選択し、ドメイン内で微調整することの重要性を強調しています。
要約(オリジナル)
The extraction of causal information from textual data is crucial in the industry for identifying and mitigating potential failures, enhancing process efficiency, prompting quality improvements, and addressing various operational challenges. This paper presents a study on the development of automated methods for causal information extraction from actual industrial documents in the semiconductor manufacturing industry. The study proposes two types of causal information extraction methods, single-stage sequence tagging (SST) and multi-stage sequence tagging (MST), and evaluates their performance using existing documents from a semiconductor manufacturing company, including presentation slides and FMEA (Failure Mode and Effects Analysis) documents. The study also investigates the effect of representation learning on downstream tasks. The presented case study showcases that the proposed MST methods for extracting causal information from industrial documents are suitable for practical applications, especially for semi structured documents such as FMEAs, with a 93\% F1 score. Additionally, MST achieves a 73\% F1 score on texts extracted from presentation slides. Finally, the study highlights the importance of choosing a language model that is more aligned with the domain and in-domain fine-tuning.
arxiv情報
著者 | Houssam Razouk,Leonie Benischke,Daniel Garber,Roman Kern |
発行日 | 2024-11-15 13:18:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google