Deepparse : An Extendable, and Fine-Tunable State-Of-The-Art Library for Parsing Multinational Street Addresses

要約

住所を意味のあるコンポーネントに分割することは、住所解析とも呼ばれ、レコードのリンクからジオコーディング、荷物の配送に至るまで、多くのアプリケーションで不可欠な手順です。
そのため、機械学習とニューラル ネットワーク手法が最先端のスコアボードをリードし、正確な住所解析技術の開発に多くの研究が費やされてきました。
しかし、アドレス解析に関する研究のほとんどは学術的な取り組みに限定されており、無料で使いやすいオープンソース ソリューションはほとんど利用できません。
このペーパーでは、LGPL-3.0 ライセンスに基づく Python オープンソースの拡張可能で微調整可能なアドレス解析ソリューションである Deepparse について説明します。Deepparse は、最先端の深層学習アルゴリズムを使用して多国籍アドレスを解析し、60 か国以上で評価されています。
あらゆる言語で書かれた住所を解析し、あらゆる住所標準を使用できます。
事前トレーニングされたモデルは、前処理も後処理も必要とせず、トレーニングに使用された国で平均 $99~\%$ の解析精度を達成します。
さらに、このライブラリは、カスタム アドレス パーサーを生成するための新しいデータによる微調整をサポートしています。

要約(オリジナル)

Segmenting an address into meaningful components, also known as address parsing, is an essential step in many applications from record linkage to geocoding and package delivery. Consequently, a lot of work has been dedicated to develop accurate address parsing techniques, with machine learning and neural network methods leading the state-of-the-art scoreboard. However, most of the work on address parsing has been confined to academic endeavours with little availability of free and easy-to-use open-source solutions. This paper presents Deepparse, a Python open-source, extendable, fine-tunable address parsing solution under LGPL-3.0 licence to parse multinational addresses using state-of-the-art deep learning algorithms and evaluated on over 60 countries. It can parse addresses written in any language and use any address standard. The pre-trained model achieves average $99~\%$ parsing accuracies on the countries used for training with no pre-processing nor post-processing needed. Moreover, the library supports fine-tuning with new data to generate a custom address parser.

arxiv情報

著者 David Beauchemin,Marouane Yassine
発行日 2023-11-20 15:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク