Self-supervised Topic Taxonomy Discovery in the Box Embedding Space

要約

トピック分類法の発見は、さまざまな抽象レベルのトピックを発見し、それらの間の階層関係を構築することを目的としています。
残念ながら、これまでの研究のほとんどは、ユークリッドの埋め込み空間の仮定を保持することによって、単語やトピックの意味論的範囲をモデル化することがほとんどできません。
さらに悪いことに、トピックの埋め込み間の対称的な距離によって非対称な階層関係が推測されます。
その結果、既存の方法は、高い抽象レベルでの低品質のトピックと不正確な階層関係の問題に悩まされます。
これらの問題を軽減するために、この論文では、単語とトピックをボックス埋め込み空間にマッピングするボックス埋め込みベースのトピック モデル (BoxTM) を開発します。ここでは、トピック間の階層関係を適切に推測するために非対称メトリックが定義されています。
さらに、当社の BoxTM は、トピック ボックスでの再帰的クラスタリングを通じて、特定のトピック間の相関関係に基づいて上位レベルのトピックを明示的に推測します。
最後に、広範な実験により、BoxTM によって学習されたトピック分類の高品質が検証されました。

要約(オリジナル)

Topic taxonomy discovery aims at uncovering topics of different abstraction levels and constructing hierarchical relations between them. Unfortunately, most of prior work can hardly model semantic scopes of words and topics by holding the Euclidean embedding space assumption. What’s worse, they infer asymmetric hierarchical relations by symmetric distances between topic embeddings. As a result, existing methods suffer from problems of low-quality topics at high abstraction levels and inaccurate hierarchical relations. To alleviate these problems, this paper develops a Box embedding-based Topic Model (BoxTM) that maps words and topics into the box embedding space, where the asymmetric metric is defined to properly infer hierarchical relations among topics. Additionally, our BoxTM explicitly infers upper-level topics based on correlation between specific topics through recursive clustering on topic boxes. Finally, extensive experiments validate high-quality of the topic taxonomy learned by BoxTM.

arxiv情報

著者 Yuyin Lu,Hegang Chen,Pengbo Mao,Yanghui Rao,Haoran Xie,Fu Lee Wang,Qing Li
発行日 2024-08-27 13:19:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク