Improving Address Matching using Siamese Transformer Networks

要約

住所の照合は、荷物の処理と配達に関わる企業や郵便局にとって重要な作業です。
荷物を間違った受取人に誤って配送した場合の影響は、会社の評判への損害から経済的および環境的コストに至るまで多岐にわたります。
この研究では、ポルトガルの住所の住所照合の効率を高めるために設計された深層学習ベースのモデルを導入します。
このモデルは 2 つの部分で構成されます: (i) ポルトガルの郵便住所の意味のある埋め込みを作成するように微調整されたバイ エンコーダー。正規化されたデータベースから正規化されていないターゲット住所と一致する可能性の高い上位 10 件を取得するために利用されます。
ii) クロスエンコーダ。バイエンコーダによって取得された 10 個のアドレスを正確に再ランク付けするために微調整されます。
このモデルは、ポルトガル語の住所の実際のシナリオでテストされており、ドア レベルで 95% を超える高い精度を示しています。
GPU 計算で利用すると、BM25 などの他の従来のアプローチよりも推論速度が約 4.5 倍速くなります。
このシステムを現実のシナリオに実装すると、配布プロセスの効率が大幅に向上します。
このような実装については現在調査中です。

要約(オリジナル)

Matching addresses is a critical task for companies and post offices involved in the processing and delivery of packages. The ramifications of incorrectly delivering a package to the wrong recipient are numerous, ranging from harm to the company’s reputation to economic and environmental costs. This research introduces a deep learning-based model designed to increase the efficiency of address matching for Portuguese addresses. The model comprises two parts: (i) a bi-encoder, which is fine-tuned to create meaningful embeddings of Portuguese postal addresses, utilized to retrieve the top 10 likely matches of the un-normalized target address from a normalized database, and (ii) a cross-encoder, which is fine-tuned to accurately rerank the 10 addresses obtained by the bi-encoder. The model has been tested on a real-case scenario of Portuguese addresses and exhibits a high degree of accuracy, exceeding 95% at the door level. When utilized with GPU computations, the inference speed is about 4.5 times quicker than other traditional approaches such as BM25. An implementation of this system in a real-world scenario would substantially increase the effectiveness of the distribution process. Such an implementation is currently under investigation.

arxiv情報

著者 André V. Duarte,Arlindo L. Oliveira
発行日 2023-07-05 13:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, I.2 パーマリンク