要約
この研究では、単一ラベルと複数ラベルのテキスト分類の方法をレビューし、比較します。これらの方法は、バッグオブワード、シーケンスベース、グラフベース、および階層的な方法に分類されます。
この比較は、5 つの単一ラベル データセットと 7 つのマルチラベル データセットにわたる文献の結果を集計し、新しい実験でそれらを補完します。
この調査結果は、最近提案されたすべてのグラフベースおよび階層ベースの手法が、事前トレーニングされた言語モデルを上回るパフォーマンスを発揮できず、バッグオブワードでの多層パーセプトロンなどの標準的な機械学習手法よりもパフォーマンスが悪い場合があることを明らかにしました。
テキスト分類における真の科学的進歩を評価するために、今後の研究では、強力なバッグオブワードベースラインと最先端の事前トレーニング済み言語モデルに対して徹底的にテストする必要があります。
要約(オリジナル)
This study reviews and compares methods for single-label and multi-label text classification, categorized into bag-of-words, sequence-based, graph-based, and hierarchical methods. The comparison aggregates results from the literature over five single-label and seven multi-label datasets and complements them with new experiments. The findings reveal that all recently proposed graph-based and hierarchy-based methods fail to outperform pre-trained language models and sometimes perform worse than standard machine learning methods like a multilayer perceptron on a bag-of-words. To assess the true scientific progress in text classification, future work should thoroughly test against strong bag-of-words baselines and state-of-the-art pre-trained language models.
arxiv情報
著者 | Lukas Galke,Andor Diera,Bao Xin Lin,Bhakti Khera,Tim Meuser,Tushar Singhal,Fabian Karl,Ansgar Scherp |
発行日 | 2023-05-26 17:59:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google