Transformer-based Entity Legal Form Classification

要約

私たちは、生の法人名から法人の法的形式を分類するための Transformer ベースの言語モデルのアプリケーションを提案します。
具体的には、さまざまな BERT バリアントを採用し、そのパフォーマンスを複数の従来のベースラインと比較します。
当社の評価には、30 の異なる法的管轄区域の 110 万を超える法人で構成される、自由に利用できる法人識別子 (LEI) データの実質的なサブセットが含まれています。
管轄区域ごとの分類のグラウンド トゥルース ラベルは、Entity Legal Form (ELF) コード標準 (ISO 20275) から取得されます。
私たちの調査結果は、事前トレーニングされた BERT バリアントが F1 スコアの点で従来のテキスト分類アプローチより優れていると同時に、マクロ F1 スコアでも比較的良好なパフォーマンスを示していることを示しています。
さらに、私たちの提案の正当性は、選ばれた10の管轄区域で実施された第三者の専門家によるレビューの結果によって裏付けられています。
この調査では、データの標準化とデータ統合を進める上での Transformer ベースのモデルの大きな可能性を浮き彫りにしています。
提示されたアプローチは、金融機関、企業、政府、その他の組織がビジネス関係を評価し、リスクにさらされることを理解し、効果的なガバナンスを促進する上で大きな利益をもたらします。

要約(オリジナル)

We propose the application of Transformer-based language models for classifying entity legal forms from raw legal entity names. Specifically, we employ various BERT variants and compare their performance against multiple traditional baselines. Our evaluation encompasses a substantial subset of freely available Legal Entity Identifier (LEI) data, comprising over 1.1 million legal entities from 30 different legal jurisdictions. The ground truth labels for classification per jurisdiction are taken from the Entity Legal Form (ELF) code standard (ISO 20275). Our findings demonstrate that pre-trained BERT variants outperform traditional text classification approaches in terms of F1 score, while also performing comparably well in the Macro F1 Score. Moreover, the validity of our proposal is supported by the outcome of third-party expert reviews conducted in ten selected jurisdictions. This study highlights the significant potential of Transformer-based models in advancing data standardization and data integration. The presented approaches can greatly benefit financial institutions, corporations, governments and other organizations in assessing business relationships, understanding risk exposure, and promoting effective governance.

arxiv情報

著者 Alexander Arimond,Mauro Molteni,Dominik Jany,Zornitsa Manolova,Damian Borth,Andreas G. F. Hoepner
発行日 2023-10-19 14:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク