Towards Visual Taxonomy Expansion

要約

分類法の拡張タスクは、増え続ける新しい概念を既存の分類法に体系化するために不可欠です。
既存の手法のほとんどは、テキストの意味論の使用のみに焦点を当てているため、目に見えない用語や「プロトタイプの上位語問題」を一般化することができなくなります。
この論文では、視覚的特徴を分類拡張タスクに導入する視覚分類拡張 (VTE) を提案します。
我々は、テキスト意味論と視覚的意味論をクラスタリングするために、テキスト上位語学習タスクと視覚プロトタイプ学習タスクを提案します。
それぞれのモダリティに関するタスクに加えて、テキストセマンティクスと視覚セマンティクスを統合してきめの細かい視覚セマンティクスを生成するハイパープロト制約を導入します。
私たちの方法は 2 つのデータセットで評価され、説得力のある結果が得られます。
特に、中国の分類データセットでは、私たちの方法により精度が 8.75 % 大幅に向上しました。
さらに、私たちのアプローチは、中国の分類データセットでは ChatGPT よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Taxonomy expansion task is essential in organizing the ever-increasing volume of new concepts into existing taxonomies. Most existing methods focus exclusively on using textual semantics, leading to an inability to generalize to unseen terms and the ‘Prototypical Hypernym Problem.’ In this paper, we propose Visual Taxonomy Expansion (VTE), introducing visual features into the taxonomy expansion task. We propose a textual hypernymy learning task and a visual prototype learning task to cluster textual and visual semantics. In addition to the tasks on respective modalities, we introduce a hyper-proto constraint that integrates textual and visual semantics to produce fine-grained visual semantics. Our method is evaluated on two datasets, where we obtain compelling results. Specifically, on the Chinese taxonomy dataset, our method significantly improves accuracy by 8.75 %. Additionally, our approach performs better than ChatGPT on the Chinese taxonomy dataset.

arxiv情報

著者 Tinghui Zhu,Jingping Liu,Jiaqing Liang,Haiyun Jiang,Yanghua Xiao,Zongyu Wang,Rui Xie,Yunsen Xian
発行日 2023-09-12 10:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク