要約
実験データセットの構築は、データ駆動型の科学的発見の範囲を拡大するために不可欠です。
自然言語処理(NLP)の最近の進歩により、構造化されていない科学文献からの構造化データの自動抽出が容易になりました。
既存のアプローチ – マルチステップで直接的な方法で価値のある機能を備えていますが、独立して適用すると制限があります。
ここでは、非構造化された科学テキストを構造化データに変換するための両方の方法の利点を統合する新しいハイブリッドテキストマイニングフレームワークを提案します。
私たちのアプローチは、最初に生のテキストをエンティティ認識テキストに変換し、その後構造化された形式に変換します。
さらに、全体的なデータ構造化フレームワークを超えて、エンティティマーカーを導入することにより、エンティティ認識パフォーマンスを強化します。シンボリックアノテーションを使用してターゲットエンティティを強調するシンプルで効果的な手法を導入します。
具体的には、エンティティマーカーベースのハイブリッドアプローチは、3つのベンチマークデータセット(Matscholar、SOFC、およびSOFC Slot NER)にわたって以前のエンティティ認識アプローチを常に上回るだけでなく、エンティティレベルF1スコアの58%の改善を最大58%改善する最終的な構造データの品質を向上させ、Direct-Level F1スコアで83%改善します。
要約(オリジナル)
The construction of experimental datasets is essential for expanding the scope of data-driven scientific discovery. Recent advances in natural language processing (NLP) have facilitated automatic extraction of structured data from unstructured scientific literature. While existing approaches-multi-step and direct methods-offer valuable capabilities, they also come with limitations when applied independently. Here, we propose a novel hybrid text-mining framework that integrates the advantages of both methods to convert unstructured scientific text into structured data. Our approach first transforms raw text into entity-recognized text, and subsequently into structured form. Furthermore, beyond the overall data structuring framework, we also enhance entity recognition performance by introducing an entity marker-a simple yet effective technique that uses symbolic annotations to highlight target entities. Specifically, our entity marker-based hybrid approach not only consistently outperforms previous entity recognition approaches across three benchmark datasets (MatScholar, SOFC, and SOFC slot NER) but also improve the quality of final structured data-yielding up to a 58% improvement in entity-level F1 score and up to 83% improvement in relation-level F1 score compared to direct approach.
arxiv情報
著者 | Junhyeong Lee,Jong Min Yuk,Chan-Woo Lee |
発行日 | 2025-05-09 07:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google