Fighting crime with Transformers: Empirical analysis of address parsing methods in payment data

要約

金融業界では、さまざまな規制要件の観点から、支払いに関与する当事者の所在地を特定することが大きな課題となっています。
この目的のために、アドレス解析では、フリー テキスト メッセージの属性から番地、郵便番号、国などのフィールドを抽出する必要があります。
決済処理プラットフォームは ISO 20022 を備えた SWIFT など、より構造化された形式で標準を更新していますが、アドレス解析は依然としてかなりの量のメッセージにとって不可欠です。
トランスフォーマーと生成大規模言語モデル (LLM) の出現により、私たちは毎日の膨大な量のデータを処理するという制約を考慮した最先端のソリューションのパフォーマンスを調査しています。
この論文は、現実世界のノイズの多いトランザクション データを処理できる堅牢なモデルをトレーニングする必要性を示すことも目的としています。
私たちの結果は、早期停止を使用して適切に微調整された Transformer モデルが他のアプローチよりも大幅に優れていることを示唆しています。
それにもかかわらず、生成 LLM は強力なゼロショット パフォーマンスを示しており、さらなる調査が必要です。

要約(オリジナル)

In the financial industry, identifying the location of parties involved in payments is a major challenge in the context of various regulatory requirements. For this purpose address parsing entails extracting fields such as street, postal code, or country from free text message attributes. While payment processing platforms are updating their standards with more structured formats such as SWIFT with ISO 20022, address parsing remains essential for a considerable volume of messages. With the emergence of Transformers and Generative Large Language Models (LLM), we explore the performance of state-of-the-art solutions given the constraint of processing a vast amount of daily data. This paper also aims to show the need for training robust models capable of dealing with real-world noisy transactional data. Our results suggest that a well fine-tuned Transformer model using early-stopping significantly outperforms other approaches. Nevertheless, generative LLMs demonstrate strong zero-shot performance and warrant further investigations.

arxiv情報

著者 Haitham Hammami,Louis Baligand,Bojan Petrovski
発行日 2024-04-08 16:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク