Fully automatic extraction of morphological traits from the Web: utopia or reality?

要約

観察可能な特性である植物の形態学的特性は、生態系内の各種が果たす役割を理解するための基本です。
ただし、中程度の数の種でも特性情報を編集することは、達成するのに何年もかかる可能性のある厳しいタスクです。
同時に、種の説明に関する膨大な量の情報はテキストの形でオンラインで入手できますが、構造がないため、このデータのソースは大規模に使用することができません。
これを克服するために、私たちは、大規模な言語モデル(LLM)の最近の進歩を活用し、手動のキュレーションなしで構造化されていないテキスト記述の形で植物特性に関する情報を収集および処理するメカニズムを考案することを提案します。
手動で作成された3つの特性マトリックスを自動的に複製することにより、アプローチを評価します。
私たちの方法は、F1スコアが75%以上で、種と形質のペアの半分以上の値を見つけることができました。
我々の結果は、LLMSの情報抽出機能のおかげで、構造化されていないオンラインテキストから構造化された特性データベースの大規模な作成が現在実行可能であり、関心のあるすべての特性をカバーするテキストの説明が利用できることによって制限されることを示唆しています。

要約(オリジナル)

Plant morphological traits, their observable characteristics, are fundamental to understand the role played by each species within their ecosystem. However, compiling trait information for even a moderate number of species is a demanding task that may take experts years to accomplish. At the same time, massive amounts of information about species descriptions is available online in the form of text, although the lack of structure makes this source of data impossible to use at scale. To overcome this, we propose to leverage recent advances in large language models (LLMs) and devise a mechanism for gathering and processing information on plant traits in the form of unstructured textual descriptions, without manual curation. We evaluate our approach by automatically replicating three manually created species-trait matrices. Our method managed to find values for over half of all species-trait pairs, with an F1-score of over 75%. Our results suggest that large-scale creation of structured trait databases from unstructured online text is currently feasible thanks to the information extraction capabilities of LLMs, being limited by the availability of textual descriptions covering all the traits of interest.

arxiv情報

著者 Diego Marcos,Robert van de Vlasakker,Ioannis N. Athanasiadis,Pierre Bonnet,Hervé Goeau,Alexis Joly,W. Daniel Kissling,César Leblanc,André S. J. van Proosdij,Konstantinos P. Panousis
発行日 2025-02-21 15:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク