APrompt4EM: Augmented Prompt Tuning for Generalized Entity Matching

要約

一般化エンティティ マッチング (GEM) は、異なる形式で表現された 2 つのレコードが現実世界の同じエンティティを参照しているかどうかを判断することを目的としており、データ管理において不可欠なタスクです。
最近の PromptEM モデルを含む、事前トレーニング済み言語モデル (PLM) のプロンプト チューニング パラダイムは、実際のアプリケーションにおける低リソース GEM の課題に効果的に対処し、ラベル付きデータが不足している場合に堅牢なソリューションを提供します。
ただし、GEM 用の既存のプロンプト チューニング モデルは、プロンプト設計と情報ギャップという課題に直面しています。
このペーパーでは、課題に対する拡張されたプロンプト チューニング フレームワークを紹介します。これは 2 つの主な改善点で構成されます。
1 つ目は、PLM のプロンプト チューニングの指針となるソフト トークンの利点を抽出する、拡張されたコンテキスト化されたソフト トークン ベースのプロンプト チューニング手法であり、2 つ目は、大規模言語モデル (LLM) を活用したコスト効率の高い情報拡張戦略です。
私たちのアプローチは、低リソースの GEM の課題に対してうまく機能します。
広範な実験により、中程度のサイズの PLM (平均 5.24%+) に基づく既存の手法と比較して、情報拡張を行わない基本モデルの有望な進歩が示されており、情報拡張を伴うモデルは、14% 未満の
API料金。

要約(オリジナル)

Generalized Entity Matching (GEM), which aims at judging whether two records represented in different formats refer to the same real-world entity, is an essential task in data management. The prompt tuning paradigm for pre-trained language models (PLMs), including the recent PromptEM model, effectively addresses the challenges of low-resource GEM in practical applications, offering a robust solution when labeled data is scarce. However, existing prompt tuning models for GEM face the challenges of prompt design and information gap. This paper introduces an augmented prompt tuning framework for the challenges, which consists of two main improvements. The first is an augmented contextualized soft token-based prompt tuning method that extracts a guiding soft token benefit for the PLMs’ prompt tuning, and the second is a cost-effective information augmentation strategy leveraging large language models (LLMs). Our approach performs well on the low-resource GEM challenges. Extensive experiments show promising advancements of our basic model without information augmentation over existing methods based on moderate-size PLMs (average 5.24%+), and our model with information augmentation achieves comparable performance compared with fine-tuned LLMs, using less than 14% of the API fee.

arxiv情報

著者 Yikuan Xia,Jiazun Chen,Xinchi Li,Jun Gao
発行日 2024-05-08 05:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク