Post-Training Language Models for Continual Relation Extraction

要約

ニュース記事、ソーシャルメディアの投稿、チャットボットの会話などの実際のデータは、本質的に動的で非定常であり、知識グラフ(KG)を介してリアルタイム構造表現を構築するための重要な課題を提示します。
KG作成の基本的なコンポーネントである関係抽出(RE)は、従来のモデルが静的で時代遅れのデータセットに依存している場合に進化するデータに適応するのに苦労しています。
継続的な関係抽出(CRE)メソッドは、以前に獲得した知識を維持しながら、新しい関係を徐々に学習することにより、この問題に取り組みます。
この研究では、事前に訓練された言語モデル(PLMS)、特に大規模な言語モデル(LLM)の適用をCREに調査し、壊滅的な忘却に対処するためのメモリリプレイを活用することに焦点を当てています。
TACREDおよび少数のデータセットで、デコーダーのみのモデル(Mistral-7BおよびLlama2-7bなど)とエンコーダデコーダーモデル(Flan-T5ベース)を評価します。
LLMSのタスクインクリメンタル微調整は、特にミストラルおよびFLAN-T5モデルで、見かけタスクの精度と全体的なパフォーマンス(全体の平均精度で測定)に優れている、TACREDのBertなどのエンコーダのみのモデルを使用して、以前のアプローチよりも優れたパフォーマンスを示します。
少数の結果は同様に有望であり、全体と平均精度メトリックで2位を達成しています。
この作業は、知識移転、言語モデルアーキテクチャ、およびKGの完全性における重要な要因を強調し、LLMとリアルタイムの関係抽出のためのLLMとメモリリプレイでCREを前進させます。

要約(オリジナル)

Real-world data, such as news articles, social media posts, and chatbot conversations, is inherently dynamic and non-stationary, presenting significant challenges for constructing real-time structured representations through knowledge graphs (KGs). Relation Extraction (RE), a fundamental component of KG creation, often struggles to adapt to evolving data when traditional models rely on static, outdated datasets. Continual Relation Extraction (CRE) methods tackle this issue by incrementally learning new relations while preserving previously acquired knowledge. This study investigates the application of pre-trained language models (PLMs), specifically large language models (LLMs), to CRE, with a focus on leveraging memory replay to address catastrophic forgetting. We evaluate decoder-only models (eg, Mistral-7B and Llama2-7B) and encoder-decoder models (eg, Flan-T5 Base) on the TACRED and FewRel datasets. Task-incremental fine-tuning of LLMs demonstrates superior performance over earlier approaches using encoder-only models like BERT on TACRED, excelling in seen-task accuracy and overall performance (measured by whole and average accuracy), particularly with the Mistral and Flan-T5 models. Results on FewRel are similarly promising, achieving second place in whole and average accuracy metrics. This work underscores critical factors in knowledge transfer, language model architecture, and KG completeness, advancing CRE with LLMs and memory replay for dynamic, real-time relation extraction.

arxiv情報

著者 Sefika Efeoglu,Adrian Paschke,Sonja Schimmler
発行日 2025-04-07 16:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク