CinPatent: Datasets for Patent Classification


ギャップを埋めるために、CPC コードを使用して収集された英語と日本語の 2 つの新しいデータセットを導入します。
英語のデータセットには 425 のラベルを持つ 45,131 件の特許文書が含まれており、日本語のデータセットには 523 のラベルを持つ 54,657 件の特許文書が含まれています。
次の研究を促進するために、2 つのデータセットに対する強力なマルチラベル テキスト分類法のパフォーマンスを比較します。
実験結果は、AttendanceXML が他の強力なベースラインよりも一貫して優れていることを示しています。
アブレーション研究は、特許のさまざまな部分 (タイトル、要約、説明、特許請求の範囲) の寄与と、さまざまなトレーニング データ セグメンテーションによるパフォーマンスに関するベースラインの動作という 2 つの側面でも実施されます。
ベースラインのコードを含む 2 つの新しいデータセットをリリースします。


Patent classification is the task that assigns each input patent into several codes (classes). Due to its high demand, several datasets and methods have been introduced. However, the lack of both systematic performance comparison of baselines and access to some datasets creates a gap for the task. To fill the gap, we introduce two new datasets in English and Japanese collected by using CPC codes. The English dataset includes 45,131 patent documents with 425 labels and the Japanese dataset contains 54,657 documents with 523 labels. To facilitate the next studies, we compare the performance of strong multi-label text classification methods on the two datasets. Experimental results show that AttentionXML is consistently better than other strong baselines. The ablation study is also conducted in two aspects: the contribution of different parts (title, abstract, description, and claims) of a patent and the behavior of baselines in terms of performance with different training data segmentation. We release the two new datasets with the code of the baselines.


著者 Minh-Tien Nguyen,Nhung Bui,Manh Tran-Tien,Linh Le,Huy-The Vu
発行日 2024-03-15 16:03:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク