要約
エンティティ マッチング (EM) は、2 つのレコードが同じ実世界のエンティティを参照しているかどうかを判断する問題で、製品カタログや住所データベースなどのデータ統合において重要です。
多くの EM アプローチの主な欠点は、ラベル付きサンプルに依存していることです。
したがって、私たちは、未確認のターゲット データセットに対してラベル付きの例が利用できないゼロショット エンティティ マッチングという難しい設定に焦点を当てます。
最近、大規模言語モデル (LLM) はゼロショット EM に対して有望な結果を示していますが、スループットが低く、導入コストが高いため、適用性と拡張性が制限されています。
転移学習セットアップで微調整された小規模言語モデルである AnyMatch を使用して、ゼロショット EM 問題を再検討します。
私たちは、モデルの微調整データを生成するためのいくつかの新しいデータ選択手法を提案します。たとえば、AutoML フィルターを介して照合するのが難しいペアを選択することによって、追加の属性レベルの例を生成することによって、データ内のラベルの不均衡を制御することによってです。
私たちは、9 つのベンチマーク データセットの 13 のベースラインと比較して、モデルの予測品質と導入コストの広範な評価を実施します。
AnyMatch は、パラメータ サイズが小さいにもかかわらず、競争力のある予測品質を提供していることがわかりました。AnyMatch は、全体で 2 番目に高い F1 スコアを達成し、数千億のパラメータを持つモデルを使用する他のいくつかのアプローチを上回っています。
さらに、私たちのアプローチは大きなコストメリットを示しています。AnyMatch の平均予測品質は、独自の兆パラメータ モデル GPT-4 を備えた最先端のメソッド MatchGPT の 4.4% 以内ですが、AnyMatch で必要なパラメータは 4 桁も少なくなります。
そして、推論コストが 3,899 分の 1 低くなります (トークン 1,000 個あたりのドル単位)。
要約(オリジナル)
Entity matching (EM) is the problem of determining whether two records refer to same real-world entity, which is crucial in data integration, e.g., for product catalogs or address databases. A major drawback of many EM approaches is their dependence on labelled examples. We thus focus on the challenging setting of zero-shot entity matching where no labelled examples are available for an unseen target dataset. Recently, large language models (LLMs) have shown promising results for zero-shot EM, but their low throughput and high deployment cost limit their applicability and scalability. We revisit the zero-shot EM problem with AnyMatch, a small language model fine-tuned in a transfer learning setup. We propose several novel data selection techniques to generate fine-tuning data for our model, e.g., by selecting difficult pairs to match via an AutoML filter, by generating additional attribute-level examples, and by controlling label imbalance in the data. We conduct an extensive evaluation of the prediction quality and deployment cost of our model, in a comparison to thirteen baselines on nine benchmark datasets. We find that AnyMatch provides competitive prediction quality despite its small parameter size: it achieves the second-highest F1 score overall, and outperforms several other approaches that employ models with hundreds of billions of parameters. Furthermore, our approach exhibits major cost benefits: the average prediction quality of AnyMatch is within 4.4% of the state-of-the-art method MatchGPT with the proprietary trillion-parameter model GPT-4, yet AnyMatch requires four orders of magnitude less parameters and incurs a 3,899 times lower inference cost (in dollars per 1,000 tokens).
arxiv情報
著者 | Zeyu Zhang,Paul Groth,Iacer Calixto,Sebastian Schelter |
発行日 | 2024-09-09 11:33:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google