A Generic Method for Fine-grained Category Discovery in Natural Language Texts

要約

粗粒の監督のみを使用したきめの細かいカテゴリーの発見は、費用対効果の高いが挑戦的な作業です。
以前のトレーニング方法は、クエリサンプルを正のサンプルで調整し、ネガから距離を置くことに焦点を当てています。
彼らは、埋め込みスペースでサンプル分布をナビゲートする際に、カテゴリ内およびカテゴリ間のセマンティックなカテゴリのセマンティックなカテゴリの類似性を無視することがよくあります。
さらに、事前に収集されたテストサンプルに依存するいくつかの評価手法は、リアルタイムアプリケーションには不十分です。
これらの欠点に対処するために、新しい客観的関数によって導かれた意味的に類似したテキストの細かいクラスターを正常に検出する方法を導入します。
この方法では、対数空間でセマンティックな類似性を使用して、ユークリッド空間でサンプル分布を導き、細粒カテゴリを表す明確なクラスターを形成します。
また、リアルタイムアプリケーションをサポートするための重心推論メカニズムを提案します。
この方法の有効性は、理論的に正当化され、3つのベンチマークタスクで経験的に確認されています。
提案された目的関数は、複数の対照学習ベースのニューラルモデルに統合されています。
その結果は、既存の最先端のアプローチを精度、調整されたRANDインデックス、および検出された細粒カテゴリの相互情報を正規化した点で上回ります。
コードとデータはコードで入手でき、データはhttps://github.com/changtianluckyforever/f-grained-starで公開されています。

要約(オリジナル)

Fine-grained category discovery using only coarse-grained supervision is a cost-effective yet challenging task. Previous training methods focus on aligning query samples with positive samples and distancing them from negatives. They often neglect intra-category and inter-category semantic similarities of fine-grained categories when navigating sample distributions in the embedding space. Furthermore, some evaluation techniques that rely on pre-collected test samples are inadequate for real-time applications. To address these shortcomings, we introduce a method that successfully detects fine-grained clusters of semantically similar texts guided by a novel objective function. The method uses semantic similarities in a logarithmic space to guide sample distributions in the Euclidean space and to form distinct clusters that represent fine-grained categories. We also propose a centroid inference mechanism to support real-time applications. The efficacy of the method is both theoretically justified and empirically confirmed on three benchmark tasks. The proposed objective function is integrated in multiple contrastive learning based neural models. Its results surpass existing state-of-the-art approaches in terms of Accuracy, Adjusted Rand Index and Normalized Mutual Information of the detected fine-grained categories. Code and data will be available at Code and data are publicly available at https://github.com/changtianluckyforever/F-grained-STAR.

arxiv情報

著者 Chang Tian,Matthew B. Blaschko,Wenpeng Yin,Mingzhe Xing,Yinliang Yue,Marie-Francine Moens
発行日 2025-02-06 15:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク