CoCon: A Data Set on Combined Contextualized Research Artifact Use

要約

学界における情報過多をきっかけに、研究者が関連する研究を特定するのを支援するための検索、推奨、および予測のための方法論とシステムが活発に研究および開発されています。
ただし、既存の作業は粒度の点で制限されており、論文のレベルまたはデータセットなどの単一タイプのアーティファクトのみに焦点を当てています。
学術出版物とそのコンテンツを扱うより全体的な分析とシステムを可能にするために、学術出版物のフルテキストで文脈化された研究成果物の組み合わせ使用を反映する大規模な学術データセットである CoCon を提案します。
私たちのデータセットは、35,000 の成果物 (データセット、メソッド、モデル、およびタスク) と 340,000 の出版物で構成されています。
さらに、「組み合わせた研究成果物の使用予測」のためのリンク予測タスクを形式化し、データの分析と ML アプリケーションの開発を利用するためのコードを提供します。
すべてのデータとコードは、https://github.com/IllDepence/contextgraph で公開されています。

要約(オリジナル)

In the wake of information overload in academia, methodologies and systems for search, recommendation, and prediction to aid researchers in identifying relevant research are actively studied and developed. Existing work, however, is limited in terms of granularity, focusing only on the level of papers or a single type of artifact, such as data sets. To enable more holistic analyses and systems dealing with academic publications and their content, we propose CoCon, a large scholarly data set reflecting the combined use of research artifacts, contextualized in academic publications’ full-text. Our data set comprises 35 k artifacts (data sets, methods, models, and tasks) and 340 k publications. We additionally formalize a link prediction task for ‘combined research artifact use prediction’ and provide code to utilize analyses of and the development of ML applications on our data. All data and code is publicly available at https://github.com/IllDepence/contextgraph.

arxiv情報

著者 Tarek Saier,Youxiang Dong,Michael Färber
発行日 2023-03-27 13:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL パーマリンク