Zero-Shot Hierarchical Classification on the Common Procurement Vocabulary Taxonomy

要約

公開入札を分類することは、参加を勧誘された企業にとっても、不正行為を検査するためにも有益な作業です。
参加者と行政の両方の作業を容易にするために、欧州連合は、一定の重要性のある入札に必須の共通分類法 (共通調達語彙、CPV) を提示しました。
ただし、CPV ラベルが義務付けられている契約は、すべての行政活動と比較すると少数です。
現実世界の分類法に基づいて分類すると、無視できないいくつかの困難が生じます。
まず、一部のきめの細かいクラスでは、トレーニング セット内の観測値が (あったとしても) 不十分ですが、他のクラスでは平均よりもはるかに頻繁に (数千回も) 観測されます。
これらの困難を克服するために、ラベルの説明のみに依存し、ラベルの分類法を尊重する事前トレーニング済みの言語モデルに基づくゼロショット アプローチを提案します。
提案したモデルをトレーニングするために、SpazioDati s.r.l のサービスである contrattipubblici.org から取得した産業データを使用しました。
過去 25 年間にイタリアで定められた公契約を収集します。
結果は、提案されたモデルが 3 つの異なるベースラインと比較して低頻度クラスの分類において優れたパフォーマンスを達成し、見たことのないクラスも予測できることを示しています。

要約(オリジナル)

Classifying public tenders is a useful task for both companies that are invited to participate and for inspecting fraudulent activities. To facilitate the task for both participants and public administrations, the European Union presented a common taxonomy (Common Procurement Vocabulary, CPV) which is mandatory for tenders of certain importance; however, the contracts in which a CPV label is mandatory are the minority compared to all the Public Administrations activities. Classifying over a real-world taxonomy introduces some difficulties that can not be ignored. First of all, some fine-grained classes have an insufficient (if any) number of observations in the training set, while other classes are far more frequent (even thousands of times) than the average. To overcome those difficulties, we present a zero-shot approach, based on a pre-trained language model that relies only on label description and respects the label taxonomy. To train our proposed model, we used industrial data, which comes from contrattipubblici.org, a service by SpazioDati s.r.l. that collects public contracts stipulated in Italy in the last 25 years. Results show that the proposed model achieves better performance in classifying low-frequent classes compared to three different baselines, and is also able to predict never-seen classes.

arxiv情報

著者 Federico Moiraghi,Matteo Palmonari,Davide Allavena,Federico Morando
発行日 2024-05-30 15:34:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク