Weakly-Supervised Scientific Document Classification via Retrieval-Augmented Multi-Stage Training

要約

科学文書の分類は幅広いアプリケーションにとって重要なタスクですが、人間がラベル付けした大量のデータを取得するコストは法外に高額になる可能性があります。
この課題に対処するために、ラベル名のみを使用して科学文書を分類するための弱教師アプローチを提案します。
科学分野では、ラベル名には文書コーパスには現れない可能性のある分野固有の概念が含まれることが多く、ラベルと文書を正確に一致させることが困難になります。
この問題に取り組むために、私たちは WANDER を提案します。これは、高密度検索を利用して埋め込み空間でのマッチングを実行し、ラベル名のセマンティクスを取得します。
さらに、ラベル名拡張モジュールを設計して、ラベル名の表現を強化します。
最後に、自己トレーニング ステップを使用して予測を調整します。
3 つのデータセットの実験では、WANDER が最良のベースラインを平均して 11.9% 上回るパフォーマンスを示しています。
私たちのコードは https://github.com/ritaranx/wander で公開されます。

要約(オリジナル)

Scientific document classification is a critical task for a wide range of applications, but the cost of obtaining massive amounts of human-labeled data can be prohibitive. To address this challenge, we propose a weakly-supervised approach for scientific document classification using label names only. In scientific domains, label names often include domain-specific concepts that may not appear in the document corpus, making it difficult to match labels and documents precisely. To tackle this issue, we propose WANDER, which leverages dense retrieval to perform matching in the embedding space to capture the semantics of label names. We further design the label name expansion module to enrich the label name representations. Lastly, a self-training step is used to refine the predictions. The experiments on three datasets show that WANDER outperforms the best baseline by 11.9% on average. Our code will be published at https://github.com/ritaranx/wander.

arxiv情報

著者 Ran Xu,Yue Yu,Joyce C. Ho,Carl Yang
発行日 2023-06-12 15:50:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク