CoastTerm: a Corpus for Multidisciplinary Term Extraction in Coastal Scientific Literature

要約

沿岸地域、特に活動が活発ではあるが脆弱な地域に対する気候変動の影響が増大しているため、効果的な環境保護政策を策定するために、多様な利害関係者や分野間の協力が必要となっています。
自動用語抽出 (ATE) および分類 (ATC) タスク用に、沿岸地域に関する 410 の科学要約からの 2,491 文で構成される新しい特殊コーパスを導入します。
アクター、リソース、ダイナミクス、インタラクションの特定に焦点を当てた ARDI フレームワークに触発され、単言語および多言語のトランスフォーマー モデルを活用して、沿岸システムの機能におけるドメイン用語とその明確な役割を自動的に抽出します。
評価では一貫した結果が示され、自動用語抽出では約 80% の F1 スコア、用語とそのラベルの抽出では 70% の F1 スコアが達成されました。
これらの発見は有望であり、沿岸地域に特化した専門知識ベースの開発に向けた最初の一歩を意味します。

要約(オリジナル)

The growing impact of climate change on coastal areas, particularly active but fragile regions, necessitates collaboration among diverse stakeholders and disciplines to formulate effective environmental protection policies. We introduce a novel specialized corpus comprising 2,491 sentences from 410 scientific abstracts concerning coastal areas, for the Automatic Term Extraction (ATE) and Classification (ATC) tasks. Inspired by the ARDI framework, focused on the identification of Actors, Resources, Dynamics and Interactions, we automatically extract domain terms and their distinct roles in the functioning of coastal systems by leveraging monolingual and multilingual transformer models. The evaluation demonstrates consistent results, achieving an F1 score of approximately 80\% for automated term extraction and F1 of 70\% for extracting terms and their labels. These findings are promising and signify an initial step towards the development of a specialized Knowledge Base dedicated to coastal areas.

arxiv情報

著者 Julien Delaunay,Hanh Thi Hong Tran,Carlos-Emiliano González-Gallardo,Georgeta Bordea,Mathilde Ducos,Nicolas Sidere,Antoine Doucet,Senja Pollak,Olivier De Viron
発行日 2024-06-13 14:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク