On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach

要約

エンティティ解決は、現実世界の同じエンティティを参照するレコードを特定して結合するタスクであり、電子商取引、医療、法執行機関などの分野で重要です。
大規模言語モデル (LLM) は、高度な言語機能と、広範なデータ サイエンスの専門知識を持たないユーザーに大きな利点を提供する「従量課金制」モデルを活用して、このタスクに革新的なアプローチを導入します。
ただし、現在の LLM は API リクエストごとに課金されるため、コストが高くなります。
既存の手法は、多くの場合、品質が不足していたり​​、大規模化すると法外に高価になったりします。
これらの問題に対処するために、LLM を使用してエンティティ解決の結果を改善する不確実性削減フレームワークを提案します。
まず、エンティティ クラスタの可能なパーティションを初期化し、同じエンティティを参照し、結果の不確実性を定義します。
次に、LLM 検証用にいくつかの価値のある一致する質問を選択することで、不確実性を軽減します。
回答を受け取ると、可能な分割の確率分布を更新します。
さらにコストを削減するために、クエリする最も価値のある一致ペアを慎重に選択する効率的なアルゴリズムを設計します。
さらに、LLM の間違いを処理するためのエラー耐性のある技術と、真に正しいパーティションに到達するための動的調整方法を作成します。
実験結果は、私たちの方法が効率的かつ効果的であり、現実世界のタスクに有望なアプリケーションを提供することを示しています。

要約(オリジナル)

Entity resolution, the task of identifying and merging records that refer to the same real-world entity, is crucial in sectors like e-commerce, healthcare, and law enforcement. Large Language Models (LLMs) introduce an innovative approach to this task, capitalizing on their advanced linguistic capabilities and a “pay-as-you-go” model that provides significant advantages to those without extensive data science expertise. However, current LLMs are costly due to per-API request billing. Existing methods often either lack quality or become prohibitively expensive at scale. To address these problems, we propose an uncertainty reduction framework using LLMs to improve entity resolution results. We first initialize possible partitions of the entity cluster, refer to the same entity, and define the uncertainty of the result. Then, we reduce the uncertainty by selecting a few valuable matching questions for LLM verification. Upon receiving the answers, we update the probability distribution of the possible partitions. To further reduce costs, we design an efficient algorithm to judiciously select the most valuable matching pairs to query. Additionally, we create error-tolerant techniques to handle LLM mistakes and a dynamic adjustment method to reach truly correct partitions. Experimental results show that our method is efficient and effective, offering promising applications in real-world tasks.

arxiv情報

著者 Huahang Li,Longyu Feng,Shuangyin Li,Fei Hao,Chen Jason Zhang,Yuanfeng Song
発行日 2024-09-12 04:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク