Interdisciplinary Fairness in Imbalanced Research Proposal Topic Inference: A Hierarchical Transformer-based Method with Selective Interpolation

要約

研究提案におけるテーマ推論の目的は、資金提供機関によって定義された専門分野システムから最適な専門分野を取得することです。
その後、当局はこの部門に基づいて、データベースから適切な査読専門家を見つけます。
自動化されたトピック推論は、手動によるトピックの入力によって引き起こされる人的エラーを削減し、資金提供機関とプロジェクト申請者の間の知識のギャップを埋め、システムの効率を向上させることができます。
既存の方法は、生成モデルを使用して最も適切なトピック情報を繰り返し推論することにより、これを階層的なマルチラベル分類問題としてモデル化することに重点を置いています。
しかし、これらの手法では、学際的な研究提案と非学際的な研究提案との規模のギャップが見落とされ、自動推論システムが学際的な提案を非学際的として分類し、専門家の割り当て時に不公平を引き起こすという不当な現象が発生します。
複雑な規律システムの下でこのデータの不均衡の問題にどのように対処し、この不公平を解決できるでしょうか?
この論文では、Transformer エンコーダ/デコーダ アーキテクチャに基づいたトピック ラベル推論システムを実装します。
さらに、補間技術を利用して、トピック間確率やトピック出現確率などのノンパラメトリック指標に基づいて、トレーニング中に非学際的な提案から一連の疑似学際的な提案を作成します。
このアプローチは、モデルのトレーニング中のシステムのバイアスを軽減することを目的としています。
最後に、提案された手法の有効性を検証するために、現実世界のデータセットに対して広範な実験を実施します。
実験結果は、私たちのトレーニング戦略がトピック推論タスクで生成される不公平性を大幅に軽減できることを示しています。

要約(オリジナル)

The objective of topic inference in research proposals aims to obtain the most suitable disciplinary division from the discipline system defined by a funding agency. The agency will subsequently find appropriate peer review experts from their database based on this division. Automated topic inference can reduce human errors caused by manual topic filling, bridge the knowledge gap between funding agencies and project applicants, and improve system efficiency. Existing methods focus on modeling this as a hierarchical multi-label classification problem, using generative models to iteratively infer the most appropriate topic information. However, these methods overlook the gap in scale between interdisciplinary research proposals and non-interdisciplinary ones, leading to an unjust phenomenon where the automated inference system categorizes interdisciplinary proposals as non-interdisciplinary, causing unfairness during the expert assignment. How can we address this data imbalance issue under a complex discipline system and hence resolve this unfairness? In this paper, we implement a topic label inference system based on a Transformer encoder-decoder architecture. Furthermore, we utilize interpolation techniques to create a series of pseudo-interdisciplinary proposals from non-interdisciplinary ones during training based on non-parametric indicators such as cross-topic probabilities and topic occurrence probabilities. This approach aims to reduce the bias of the system during model training. Finally, we conduct extensive experiments on a real-world dataset to verify the effectiveness of the proposed method. The experimental results demonstrate that our training strategy can significantly mitigate the unfairness generated in the topic inference task.

arxiv情報

著者 Meng Xiao,Min Wu,Ziyue Qiao,Yanjie Fu,Zhiyuan Ning,Yi Du,Yuanchun Zhou
発行日 2023-09-04 16:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク