Quantification of Biodiversity from Historical Survey Text with LLM-based Best-Worst Scaling

要約

この研究では、履歴調査テキストからの量推定を介して種の頻度を決定する方法を評価します。
そのために、分類タスクを策定し、最終的にこの問題が、大規模な言語モデル(LLMS)を備えたBest-Worst Scaling(BWS)を使用して回帰タスクとして適切にフレーム化できることを示します。
Ministral-8B、Deepseek-V3、およびGPT-4をテストし、後者の2つが人間と互いと合理的な一致を持っていることを発見しました。
このアプローチはより費用対効果が高く、細粒のマルチクラスアプローチと比較して同様に堅牢であり、種間で自動化された数量推定を可能にすると結論付けています。

要約(オリジナル)

In this study, we evaluate methods to determine the frequency of species via quantity estimation from historical survey text. To that end, we formulate classification tasks and finally show that this problem can be adequately framed as a regression task using Best-Worst Scaling (BWS) with Large Language Models (LLMs). We test Ministral-8B, DeepSeek-V3, and GPT-4, finding that the latter two have reasonable agreement with humans and each other. We conclude that this approach is more cost-effective and similarly robust compared to a fine-grained multi-class approach, allowing automated quantity estimation across species.

arxiv情報

著者 Thomas Haider,Tobias Perschl,Malte Rehbein
発行日 2025-02-06 12:25:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク