HiTIN: Hierarchy-aware Tree Isomorphism Network for Hierarchical Text Classification

要約

階層テキスト分類 (HTC) は、ラベルが複雑な階層構造を形成するため、マルチラベル分類の難しいサブタスクです。
HTC の既存のデュアル エンコーダ方式では、メモリ オーバーヘッドが大きく、パフォーマンスの向上が弱く、その構造エンコーダはドメインの知識に大きく依存しています。
このような観察のもとでは、事前の統計やラベル セマンティクスを使用せずに、HTC のパフォーマンスを向上させる強力な一般化機能を備えたメモリに優しいモデルの実現可能性を調査する傾向があります。
この論文では、ラベル階層の構文情報のみを使用してテキスト表現を強化する、Hierarchy-aware Tree Isomorphism Network (HiTIN) を提案します。
具体的には、構造エントロピーを利用して、ラベル階層をコーディング ツリーと呼ばれる重みのないツリー構造に変換します。
次に、コーディング ツリー内の階層を認識した情報をテキスト表現に組み込むための構造エンコーダーを設計します。
HiTIN には、テキスト エンコーダのほかに、いくつかの多層認識と線形変換のみが含まれているため、メモリが大幅に節約されます。
私たちは一般的に使用される 3 つのデータセットで実験を実施し、その結果、HiTIN が最先端 (SOTA) 手法よりも優れたテスト パフォーマンスと少ないメモリ消費量を達成できることが実証されました。

要約(オリジナル)

Hierarchical text classification (HTC) is a challenging subtask of multi-label classification as the labels form a complex hierarchical structure. Existing dual-encoder methods in HTC achieve weak performance gains with huge memory overheads and their structure encoders heavily rely on domain knowledge. Under such observation, we tend to investigate the feasibility of a memory-friendly model with strong generalization capability that could boost the performance of HTC without prior statistics or label semantics. In this paper, we propose Hierarchy-aware Tree Isomorphism Network (HiTIN) to enhance the text representations with only syntactic information of the label hierarchy. Specifically, we convert the label hierarchy into an unweighted tree structure, termed coding tree, with the guidance of structural entropy. Then we design a structure encoder to incorporate hierarchy-aware information in the coding tree into text representations. Besides the text encoder, HiTIN only contains a few multi-layer perceptions and linear transformations, which greatly saves memory. We conduct experiments on three commonly used datasets and the results demonstrate that HiTIN could achieve better test performance and less memory consumption than state-of-the-art (SOTA) methods.

arxiv情報

著者 He Zhu,Chong Zhang,Junjie Huang,Junran Wu,Ke Xu
発行日 2023-06-09 08:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク