Efficient Scientific Full Text Classification: The Case of EICAT Impact Assessments

要約

この研究では、小規模でBERTベースのモデルとLlama-3.18bなどのローカルな大規模な言語モデルの両方を使用して、科学的フルテキストを効率的に分類するための戦略を探ります。
入力文のサブセットを選択して、入力サイズを削減しながら、同時に分類パフォーマンスを向上させる方法の開発に焦点を当てます。
この目的のために、侵略生物学の分野からのフルテキストの科学論文で構成される新しいデータセットを編集し、侵入種の影響に特に対処します。
これらの論文は、国際自然保護連合(IUCN)の研究者によって作成された公的に利用可能な影響評価と一致しています。
広範な実験を通じて、人間の証拠アノテーション、LLM生成注釈、または説明可能性スコアなどのさまざまなソースを使用して、エンコーダーベースの言語モデルとデコーダーベースの両方の言語モデルのパフォーマンスを改善しながら、効率を最適化しながら、選択モデルの選択モデルをトレーニングできることを実証します。
入力長は、完全なテキストを入力として処理できるModernBertのようなモデルと比較しても、結果が改善されます。
さらに、より短い入力のサンプリングを繰り返しサンプリングは、わずかに増加したコストで、分類パフォーマンスをさらに改善できる非常に効果的な戦略であることがわかります。

要約(オリジナル)

This study explores strategies for efficiently classifying scientific full texts using both small, BERT-based models and local large language models like Llama-3.1 8B. We focus on developing methods for selecting subsets of input sentences to reduce input size while simultaneously enhancing classification performance. To this end, we compile a novel dataset consisting of full-text scientific papers from the field of invasion biology, specifically addressing the impacts of invasive species. These papers are aligned with publicly available impact assessments created by researchers for the International Union for Conservation of Nature (IUCN). Through extensive experimentation, we demonstrate that various sources like human evidence annotations, LLM-generated annotations or explainability scores can be used to train sentence selection models that improve the performance of both encoder- and decoder-based language models while optimizing efficiency through the reduction in input length, leading to improved results even if compared to models like ModernBERT that are able to handle the complete text as input. Additionally, we find that repeated sampling of shorter inputs proves to be a very effective strategy that, at a slightly increased cost, can further improve classification performance.

arxiv情報

著者 Marc Felix Brinner,Sina Zarrieß
発行日 2025-02-10 15:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク