LLM-IE: A Python Package for Generative Information Extraction with Large Language Models

要約

目的: 生物医学情報の抽出に大規模言語モデル (LLM) が最近採用されているにもかかわらず、専用のソフトウェアが利用できないため、プロンプト エンジニアリングとアルゴリズムにおける課題は依然として残っています。
これに対処するために、完全な情報抽出パイプラインを構築するための Python パッケージである LLM-IE を開発しました。
私たちの主な革新は、スキーマ定義と迅速な設計をサポートする対話型 LLM エージェントです。
材料と方法: LLM-IE は、名前付きエンティティ認識、エンティティ属性抽出、および関係抽出タスクをサポートします。
i2b2 データセットでベンチマークを実行し、システム評価を実施しました。
結果: 文ベースのプロンプト アルゴリズムは、より長い推論時間を必要とする一方で、最高のパフォーマンスをもたらしました。
システム評価により直感的な視覚化が実現しました。
考察: LLM-IE はヘルスケアにおける実践的な NLP 経験に基づいて設計されており、社内プロジェクトで採用されています。
これは生物医学 NLP コミュニティにとって大きな価値を持つはずです。
結論: 私たちは、堅牢な情報抽出パイプライン構築のための構成要素を提供する Python パッケージ LLM-IE を開発しました。

要約(オリジナル)

Objectives: Despite the recent adoption of large language models (LLMs) for biomedical information extraction, challenges in prompt engineering and algorithms persist, with no dedicated software available. To address this, we developed LLM-IE: a Python package for building complete information extraction pipelines. Our key innovation is an interactive LLM agent to support schema definition and prompt design. Materials and Methods: The LLM-IE supports named entity recognition, entity attribute extraction, and relation extraction tasks. We benchmarked on the i2b2 datasets and conducted a system evaluation. Results: The sentence-based prompting algorithm resulted in the best performance while requiring a longer inference time. System evaluation provided intuitive visualization. Discussion: LLM-IE was designed from practical NLP experience in healthcare and has been adopted in internal projects. It should hold great value to the biomedical NLP community. Conclusion: We developed a Python package, LLM-IE, that provides building blocks for robust information extraction pipeline construction.

arxiv情報

著者 Enshuo Hsu,Kirk Roberts
発行日 2024-11-18 17:56:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク