要約
トップクラスの AI カンファレンスで問題のあるピアレビューが増加しているため、コミュニティは自動品質管理手段を緊急に必要としています。
このペーパーでは、実証(レビュー内の主張が証拠によって十分に裏付けられているかどうかを示す一般的な品質側面の 1 つ)に注意を限定し、この評価プロセスを自動化するソリューションを提供します。
この目標を達成するために、まず問題を科学的査読における主張と証拠のペアの抽出として定式化し、このタスク用の最初の注釈付きデータセットである SubstanReview を収集します。
SubstanReview は、分野の専門家によって注釈が付けられた NLP カンファレンスの 550 件のレビューで構成されています。
このデータセットに基づいて、議論マイニング システムをトレーニングして、査読における実証レベルを自動的に分析します。
また、近年の NLP カンファレンスにおける査読の品質に関する有意義な洞察を得るために、SubstanReview データセットのデータ分析も実行しています。
要約(オリジナル)
With the increasing amount of problematic peer reviews in top AI conferences, the community is urgently in need of automatic quality control measures. In this paper, we restrict our attention to substantiation — one popular quality aspect indicating whether the claims in a review are sufficiently supported by evidence — and provide a solution automatizing this evaluation process. To achieve this goal, we first formulate the problem as claim-evidence pair extraction in scientific peer reviews, and collect SubstanReview, the first annotated dataset for this task. SubstanReview consists of 550 reviews from NLP conferences annotated by domain experts. On the basis of this dataset, we train an argument mining system to automatically analyze the level of substantiation in peer reviews. We also perform data analysis on the SubstanReview dataset to obtain meaningful insights on peer reviewing quality in NLP conferences over recent years.
arxiv情報
著者 | Yanzhu Guo,Guokan Shang,Virgile Rennard,Michalis Vazirgiannis,Chloé Clavel |
発行日 | 2023-11-20 17:47:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google