Hierarchical MixUp Multi-label Classification with Imbalanced Interdisciplinary Research Proposals

要約

資金提供機関は、主に、分野の専門家と研究提案の間のトピックのマッチングに依存して、提案の審査員を割り当てます。
提案はますます学際的になるため、提案の学際的な性質をプロファイルし、その後、適切な専門知識を備えた専門審査員を見つけることが困難になります。
この課題を解決するための重要なステップは、提案の学際的なラベルを正確にモデル化して分類することです。
テキストの分類や提案の分類など、既存の方法論およびアプリケーション関連の文献は、学際的な提案データによってもたらされる 3 つの主要な固有の問題に共同で対処するには不十分です。1) 粗粒度から詳細度までの提案の分野ラベルの階層構造。
たとえば、情報科学から AI、AI の基礎まで。
2) 提案において異なる役割を果たすさまざまな主要なテキスト部分の異質な意味論。
3) 提案数が非学際的研究と学際的研究の間で不均衡である。
この提案の学際的な性質を理解する上で、3 つの問題に同時に取り組むことができるでしょうか?
この質問に応えて、我々は H-MixUp と呼ばれる階層的ミックスアップ複数ラベル分類フレームワークを提案します。
H-MixUp は、1 つ目と 2 つ目の問題について、トランスフォーマー ベースのセマンティック情報抽出ツールと GCN ベースの学際的知識抽出ツールを利用します。
H-MixUp は、3 番目の問題に対処するために、Wold レベルの MixUp、Word レベルの CutMix、Manifold MixUp、および Document レベルの MixUp を融合したトレーニング方法を開発します。

要約(オリジナル)

Funding agencies are largely relied on a topic matching between domain experts and research proposals to assign proposal reviewers. As proposals are increasingly interdisciplinary, it is challenging to profile the interdisciplinary nature of a proposal, and, thereafter, find expert reviewers with an appropriate set of expertise. An essential step in solving this challenge is to accurately model and classify the interdisciplinary labels of a proposal. Existing methodological and application-related literature, such as textual classification and proposal classification, are insufficient in jointly addressing the three key unique issues introduced by interdisciplinary proposal data: 1) the hierarchical structure of discipline labels of a proposal from coarse-grain to fine-grain, e.g., from information science to AI to fundamentals of AI. 2) the heterogeneous semantics of various main textual parts that play different roles in a proposal; 3) the number of proposals is imbalanced between non-interdisciplinary and interdisciplinary research. Can we simultaneously address the three issues in understanding the proposal’s interdisciplinary nature? In response to this question, we propose a hierarchical mixup multiple-label classification framework, which we called H-MixUp. H-MixUp leverages a transformer-based semantic information extractor and a GCN-based interdisciplinary knowledge extractor for the first and second issues. H-MixUp develops a fused training method of Wold-level MixUp, Word-level CutMix, Manifold MixUp, and Document-level MixUp to address the third issue.

arxiv情報

著者 Meng Xiao,Min Wu,Ziyue Qiao,Zhiyuan Ning,Yi Du,Yanjie Fu,Yuanchun Zhou
発行日 2023-06-28 14:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク