Revisiting Hierarchical Text Classification: Inference and Metrics

要約

階層テキスト分類 (HTC) は、階層として編成された構造化スペース内のテキストにラベルを割り当てるタスクです。
最近の研究では、HTC を従来のマルチラベル分類問題として扱い、そのように評価しています。
代わりに、特別に設計された階層メトリクスに基づいてモデルを評価することを提案し、メトリクスの選択と予測推論方法の複雑さを実証します。
私たちは、新しい挑戦的なデータセットを導入し、新しい理論的に動機付けられた損失を含む、一連のシンプルだが強力なベースラインと比較して、最新の洗練されたモデルを公正に評価します。
最後に、これらのベースラインが最新モデルと競合することが非常に多いことを示します。
これは、HTC に新しい手法を提案する際に、評価手法を慎重に検討することの重要性を強調しています。
コードの実装とデータセットは \url{https://github.com/RomanPlaud/revisitingHTC} で入手できます。

要約(オリジナル)

Hierarchical text classification (HTC) is the task of assigning labels to a text within a structured space organized as a hierarchy. Recent works treat HTC as a conventional multilabel classification problem, therefore evaluating it as such. We instead propose to evaluate models based on specifically designed hierarchical metrics and we demonstrate the intricacy of metric choice and prediction inference method. We introduce a new challenging dataset and we evaluate fairly, recent sophisticated models, comparing them with a range of simple but strong baselines, including a new theoretically motivated loss. Finally, we show that those baselines are very often competitive with the latest models. This highlights the importance of carefully considering the evaluation methodology when proposing new methods for HTC. Code implementation and dataset are available at \url{https://github.com/RomanPlaud/revisitingHTC}.

arxiv情報

著者 Roman Plaud,Matthieu Labeau,Antoine Saillenfest,Thomas Bonald
発行日 2024-10-11 15:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク