要約
科学出版物は慣例化された修辞構造に従っています。
学術文書の処理を改善するために、議論ゾーン (AZ) を分類すること、たとえば文が動機、結果、または背景情報を述べているかどうかを識別することが提案されています。
この研究では、このアイデアを材料科学研究の領域に適用し、拡張します。
私たちは、手動で注釈が付けられた 50 件の研究論文の新しいデータセットを提示およびリリースします。
データセットは 7 つのサブトピックにまたがっており、材料科学に焦点を当てた AZ のマルチラベル アノテーション スキームでアノテーションが付けられています。
コーパス統計を詳しく説明し、アノテーター間の高い一致を示します。
私たちの計算実験では、ドメイン固有の事前トレーニング済みトランスフォーマーベースのテキスト エンコーダーを使用することが、高い分類パフォーマンスの鍵となることを示しています。
また、他のドメインの既存のデータセットの AZ カテゴリがさまざまな程度に転送可能であることもわかりました。
要約(オリジナル)
Scientific publications follow conventionalized rhetorical structures. Classifying the Argumentative Zone (AZ), e.g., identifying whether a sentence states a Motivation, a Result or Background information, has been proposed to improve processing of scholarly documents. In this work, we adapt and extend this idea to the domain of materials science research. We present and release a new dataset of 50 manually annotated research articles. The dataset spans seven sub-topics and is annotated with a materials-science focused multi-label annotation scheme for AZ. We detail corpus statistics and demonstrate high inter-annotator agreement. Our computational experiments show that using domain-specific pre-trained transformer-based text encoders is key to high classification performance. We also find that AZ categories from existing datasets in other domains are transferable to varying degrees.
arxiv情報
著者 | Timo Pierre Schrader,Teresa Bürkle,Sophie Henning,Sherry Tan,Matteo Finco,Stefan Grünewald,Maira Indrikova,Felix Hildebrand,Annemarie Friedrich |
発行日 | 2023-07-05 14:55:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google