要約
エンティティの照合は、同じ現実世界のエンティティを参照するさまざまなソースからのレコードをリンクするタスクです。
これまでの研究では、主にエンティティ リンクを標準の教師あり学習問題として扱ってきました。
ただし、教師ありエンティティ マッチング モデルは新しいデータに対してうまく一般化できないことが多く、ラベル付きトレーニング データを徹底的に収集するには法外なコストがかかることがよくあります。
さらに、最近の取り組みでは、LLM の一般知識を活用して、少数/ゼロショット設定でこのタスクに LLM を採用しています。
しかし、LLM は、現実世界のエンティティ照合タスクの大規模な推論を実行するには法外に高価です。
効率的な代替手段として、バイナリ分類ではなく、条件付き生成タスクとしてエンティティ マッチングを再キャストします。
これにより、自然言語説明を介して LLM 推論をより小さなエンティティ マッチング モデルに「蒸留」することができます。
このアプローチは、特にスタンドアロンの生成手法が困難な領域外の汎化テスト (10.85% F-1) で優れたパフォーマンスを実現します。
私たちは、パフォーマンスとモデルの堅牢性の両方に関して説明の重要性を強調するアブレーションを実行します。
要約(オリジナル)
Entity matching is the task of linking records from different sources that refer to the same real-world entity. Past work has primarily treated entity linking as a standard supervised learning problem. However, supervised entity matching models often do not generalize well to new data, and collecting exhaustive labeled training data is often cost prohibitive. Further, recent efforts have adopted LLMs for this task in few/zero-shot settings, exploiting their general knowledge. But LLMs are prohibitively expensive for performing inference at scale for real-world entity matching tasks. As an efficient alternative, we re-cast entity matching as a conditional generation task as opposed to binary classification. This enables us to ‘distill’ LLM reasoning into smaller entity matching models via natural language explanations. This approach achieves strong performance, especially on out-of-domain generalization tests (10.85% F-1) where standalone generative methods struggle. We perform ablations that highlight the importance of explanations, both for performance and model robustness.
arxiv情報
著者 | Somin Wadhwa,Adit Krishnan,Runhui Wang,Byron C. Wallace,Chris Kong |
発行日 | 2024-06-13 17:08:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google