Text Classification in the Wild: a Large-scale Long-tailed Name Normalization Dataset

要約

実世界のデータは通常、いくつかの頻繁なラベルと多数の少数ショット ラベルを含むロングテール分布を示します。
機関名の正規化の研究は、この現象を示す完璧な適用例です。
世界中に多くの機関があり、公的に入手可能な文献にその名前の膨大なバリエーションがあります。
この作業では、最初に大規模な機関名正規化データセット LoT-insts1 を収集します。これには、自然にロングテール分布を示す 25,000 を超えるクラスが含まれています。
少数ショットとゼロ ショットの学習シナリオを大規模な多数ショット クラスから分離するために、4 つの異なるサブセットからテスト セットを構築します。
ショットオープンセット。
また、検索ベースの方法から事前トレーニング済みの BERT モデルを使用するニューラル ネットワーク方法まで、幅広い範囲をカバーするいくつかの重要なベースライン方法をデータに複製します。
さらに、少数ショットおよびゼロ ショット テスト セットでより優れた分布外一般化を示す、特別に事前トレーニングされた BERT ベースのモデルを提案します。
ロングテール現象に焦点を当てた他のデータセットと比較して、私たちのデータセットには、既存の最大のロングテール データセットよりも 1 桁多くのトレーニング データがあり、手動で合成されるのではなく、自然にロングテールになっています。
この問題を研究するための重要で異なるシナリオを提供すると考えています。
私たちの知る限り、これはロングテールおよびオープンセットの分類問題に焦点を当てた最初の自然言語データセットです。

要約(オリジナル)

Real-world data usually exhibits a long-tailed distribution,with a few frequent labels and a lot of few-shot labels. The study of institution name normalization is a perfect application case showing this phenomenon. There are many institutions worldwide with enormous variations of their names in the publicly available literature. In this work, we first collect a large-scale institution name normalization dataset LoT-insts1, which contains over 25k classes that exhibit a naturally long-tailed distribution. In order to isolate the few-shot and zero-shot learning scenarios from the massive many-shot classes, we construct our test set from four different subsets: many-, medium-, and few-shot sets, as well as a zero-shot open set. We also replicate several important baseline methods on our data, covering a wide range from search-based methods to neural network methods that use the pretrained BERT model. Further, we propose our specially pretrained, BERT-based model that shows better out-of-distribution generalization on few-shot and zero-shot test sets. Compared to other datasets focusing on the long-tailed phenomenon, our dataset has one order of magnitude more training data than the largest existing long-tailed datasets and is naturally long-tailed rather than manually synthesized. We believe it provides an important and different scenario to study this problem. To our best knowledge, this is the first natural language dataset that focuses on long-tailed and open-set classification problems.

arxiv情報

著者 Jiexing Qi,Shuhao Li,Zhixin Guo,Yusheng Huang,Chenghu Zhou,Weinan Zhang,Xinbing Wang,Zhouhan Lin
発行日 2023-02-19 08:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク