Are We Really Making Much Progress? Bag-of-Words vs. Sequence vs. Graph vs. Hierarchy for Single- and Multi-Label Text Classification

要約

グラフニューラルネットワークの人気をきっかけに、シングルラベルやマルチラベルのテキスト分類のためのグラフベースの手法が復活している。しかし、これらのグラフベースの手法が、標準的な機械学習手法や最新の事前学習済み言語モデルと比較して有益であるかどうかは不明である。本論文では、テキスト分類のための単語袋法、配列法、グラフ法、階層法の豊富な選択肢を比較する。5つのシングルラベルと7つのマルチラベルのデータセットで、文献の結果を集約し、独自の実験を行った。その結果、シングルラベルおよびマルチラベルの分類タスクにおいて、グラフベースの手法は、微調整された言語モデルを上回ることができず、時には、単語帳の多層パーセプトロン(MLP)のような標準的な機械学習手法よりも性能が劣ることさえあることが明確に示されました。このことは、過去数年間、新しいグラフベース手法の開発に費やされた膨大な努力と、それらがテキスト分類にもたらす期待に疑問を投げかけるものである。我々の広範な実験から、我々は、最近のあらゆる専門的な進歩にもかかわらず、事前訓練された言語モデルがテキスト分類において最先端であることを確認した。我々は、テキスト分類における将来の研究は、真の科学的進歩を適切に評価するために、MLPのような強力なベースラインに対して徹底的にテストするべきだと主張する。 ソースコードは https://github.com/drndr/multilabel-text-clf から入手可能です。

要約(オリジナル)

The popularity of graph neural networks has triggered a resurgence of graph-based methods for single-label and multi-label text classification. However, it is unclear whether these graph-based methods are beneficial compared to standard machine learning methods and modern pretrained language models. We compare a rich selection of bag-of-words, sequence-based, graph-based, and hierarchical methods for text classification. We aggregate results from the literature over 5 single-label and 7 multi-label datasets and run our own experiments. Our findings unambiguously demonstrate that for single-label and multi-label classification tasks, the graph-based methods fail to outperform fine-tuned language models and sometimes even perform worse than standard machine learning methods like multilayer perceptron (MLP) on a bag-of-words. This questions the enormous amount of effort put into the development of new graph-based methods in the last years and the promises they make for text classification. Given our extensive experiments, we confirm that pretrained language models remain state-of-the-art in text classification despite all recent specialized advances. We argue that future work in text classification should thoroughly test against strong baselines like MLPs to properly assess the true scientific progress. The source code is available: https://github.com/drndr/multilabel-text-clf

arxiv情報

著者 Lukas Galke,Andor Diera,Bao Xin Lin,Bhakti Khera,Tim Meuser,Tushar Singhal,Fabian Karl,Ansgar Scherp
発行日 2023-03-03 14:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク