Towards Answering Climate Questionnaires from Unstructured Climate Reports

要約

気候変動 (CC) のテーマは、緊急性があるにもかかわらず、NLP ではあまり注目されていません。
活動家や政策立案者は、急速に増大する膨大な非構造化テキスト気候レポートを効果的に処理して構造化形式にするための NLP ツールを必要としています。
この課題に取り組むために、私たちは 2 つの新しい大規模気候アンケート データセットを導入し、それらの既存の構造を使用して自己教師ありモデルをトレーニングします。
私たちは、これらのモデルが、トレーニング中に見られたものとは異なる組織タイプの気候情報開示を一般化することを学習できることを示すために実験を実施します。
次に、これらのモデルを使用して、非構造化気候文書のテキストを人間によるパイロット研究の半構造化アンケートに整合させるのに役立ちます。
最後に、気候領域におけるさらなる NLP 研究をサポートするために、既存のモデルをより適切に評価および比較するために、既存の気候テキスト分類データセットのベンチマークを導入します。

要約(オリジナル)

The topic of Climate Change (CC) has received limited attention in NLP despite its urgency. Activists and policymakers need NLP tools to effectively process the vast and rapidly growing unstructured textual climate reports into structured form. To tackle this challenge we introduce two new large-scale climate questionnaire datasets and use their existing structure to train self-supervised models. We conduct experiments to show that these models can learn to generalize to climate disclosures of different organizations types than seen during training. We then use these models to help align texts from unstructured climate documents to the semi-structured questionnaires in a human pilot study. Finally, to support further NLP research in the climate domain we introduce a benchmark of existing climate text classification datasets to better evaluate and compare existing models.

arxiv情報

著者 Daniel Spokoyny,Tanmay Laud,Tom Corringham,Taylor Berg-Kirkpatrick
発行日 2023-07-27 18:13:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク