Towards Open-Domain Topic Classification

要約

ユーザー定義の分類法をリアルタイムで受け入れるオープンドメインのトピック分類システムを導入します。
ユーザーは、必要な候補ラベルに関してテキスト スニペットを分類し、Web インターフェイスから即座に応答を得ることができます。
このような柔軟性を得るために、ゼロショット方式でバックエンド モデルを構築します。
Wikipedia から構築された新しいデータセットでトレーニングすることにより、ラベル対応テキスト分類器は、事前トレーニングされた言語モデルの暗黙の知識を効果的に利用して、これまでに見たことのないラベルを処理できます。
異なるラベルセットを持つさまざまなドメインからの 4 つのデータセットにわたってモデルを評価します。
実験の結果、このモデルはオープンドメイン シナリオにおける既存のゼロショット ベースラインよりも大幅に向上し、ドメイン内データでトレーニングされた弱い教師付きモデルと競合するパフォーマンスを示すことが示されました。

要約(オリジナル)

We introduce an open-domain topic classification system that accepts user-defined taxonomy in real time. Users will be able to classify a text snippet with respect to any candidate labels they want, and get instant response from our web interface. To obtain such flexibility, we build the backend model in a zero-shot way. By training on a new dataset constructed from Wikipedia, our label-aware text classifier can effectively utilize implicit knowledge in the pretrained language model to handle labels it has never seen before. We evaluate our model across four datasets from various domains with different label sets. Experiments show that the model significantly improves over existing zero-shot baselines in open-domain scenarios, and performs competitively with weakly-supervised models trained on in-domain data.

arxiv情報

著者 Hantian Ding,Jinrui Yang,Yuqian Deng,Hongming Zhang,Dan Roth
発行日 2023-06-29 20:25:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク