要約
ナレッジ グラフ (KG) は、複雑な科学技術ドメインの分析にうまく適用されており、自動 KG 生成メソッドは通常、テキスト内のドメイン エンティティ間の詳細な関係をキャプチャする関係抽出モデルに基づいて構築されています。
これらの関係は科学分野全体に完全に適用できますが、既存のモデルは SciERC などの少数のドメイン固有のデータセットでトレーニングされており、新しいターゲット ドメインではうまく機能しません。
この論文では、大規模言語モデルのインコンテキスト学習機能を活用して、スキーマ制約のあるデータ アノテーションを実行し、アーキテクチャ内の研究論文のタイトルと要約にデプロイされた Transformer ベースの関係抽出モデルのドメイン内トレーニング インスタンスを収集する実験を行います。
、建設、エンジニアリング、運用 (AECO) ドメイン。
オフドメイン データでトレーニングされたベースラインの深層学習アーキテクチャに関するパフォーマンスの向上を評価することにより、構造化されたプロンプトと最小限の専門家の注釈のみを備えた数ショット学習戦略を使用することで、提示されたアプローチが科学のドメイン適応を潜在的にサポートできることを示します。
KG世代モデル。
要約(オリジナル)
Knowledge graphs (KGs) have been successfully applied to the analysis of complex scientific and technological domains, with automatic KG generation methods typically building upon relation extraction models capturing fine-grained relations between domain entities in text. While these relations are fully applicable across scientific areas, existing models are trained on few domain-specific datasets such as SciERC and do not perform well on new target domains. In this paper, we experiment with leveraging in-context learning capabilities of Large Language Models to perform schema-constrained data annotation, collecting in-domain training instances for a Transformer-based relation extraction model deployed on titles and abstracts of research papers in the Architecture, Construction, Engineering and Operations (AECO) domain. By assessing the performance gain with respect to a baseline Deep Learning architecture trained on off-domain data, we show that by using a few-shot learning strategy with structured prompts and only minimal expert annotation the presented approach can potentially support domain adaptation of a science KG generation model.
arxiv情報
著者 | Vanni Zavarella,Juan Carlos Gamero-Salinas,Sergio Consoli |
発行日 | 2024-08-05 11:06:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google