Disambiguation of Company names via Deep Recurrent Networks

要約

タイトル: 深層リカレントネットワークによる企業名の曖昧性解消
要約:

– 名前エンティティの曖昧性解消は、名前、場所、組織などの属性のリストとして表される実世界のエンティティに対応するテキストレコードを識別する自然言語処理タスクです。
– この研究では、企業の名前に基づく曖昧性解消のタスクに取り組んでいます。
– 私たちは、監視学習によって企業名文字列の埋め込みを抽出するためのSiamese LSTMネットワークアプローチを提案し、この表現を使用して、実際に同じ会社(同じエンティティ)を表す企業名のペアを識別します。
– 文字列のペアの手動ラベリングが非常に煩雑なタスクであることから、どのサンプルを優先してラベル付けするためのアクティブラーニングアプローチが全体的な学習パイプラインをより効率的にするかを分析しています。
– 実証的な調査により、ラベル付けリソースが十分に利用可能な場合、提案されたSiamese Networkが標準的な文字列マッチングアルゴリズムに基づくいくつかのベンチマークアプローチを上回ることを示しました。
– さらに、ラベルリソースが限られている場合、アクティブラーニング優先度が実際に役立つことを示し、標準(ランダム)データラベリングアプローチに比べて、ラベル付けデータを少なくして、学習モデルが外部サンプルのパフォーマンス飽和に達することができることを示しました。

要約(オリジナル)

Name Entity Disambiguation is the Natural Language Processing task of identifying textual records corresponding to the same Named Entity, i.e. real-world entities represented as a list of attributes (names, places, organisations, etc.). In this work, we face the task of disambiguating companies on the basis of their written names. We propose a Siamese LSTM Network approach to extract — via supervised learning — an embedding of company name strings in a (relatively) low dimensional vector space and use this representation to identify pairs of company names that actually represent the same company (i.e. the same Entity). Given that the manual labelling of string pairs is a rather onerous task, we analyse how an Active Learning approach to prioritise the samples to be labelled leads to a more efficient overall learning pipeline. With empirical investigations, we show that our proposed Siamese Network outperforms several benchmark approaches based on standard string matching algorithms when enough labelled data are available. Moreover, we show that Active Learning prioritisation is indeed helpful when labelling resources are limited, and let the learning models reach the out-of-sample performance saturation with less labelled data with respect to standard (random) data labelling approaches.

arxiv情報

著者 Alessandro Basile,Riccardo Crupi,Michele Grasso,Alessandro Mercanti,Daniele Regoli,Simone Scarsi,Shuyi Yang,Andrea Cosentini
発行日 2023-04-15 20:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.DB, cs.LG パーマリンク