要約
非構造化テキストデータの急激な増加は、現代のデータ管理と情報検索における基本的な課題を提示している。大規模言語モデル(Large Language Models: LLM)は、自然言語処理において顕著な能力を示しているが、非構造化テキストを標準化された構造化フォーマットに変換する潜在能力は、ほとんど未開拓のままである。本研究では、LLMが非構造化レシピテキストを構造化クックランフォーマットに変換する能力を体系的に評価することで、新たな境地を開いた。4つのモデル(GPT-4o、GPT-4o-mini、Llama3.1:70b、Llama3.1:8b)の包括的なテストを通して、伝統的なメトリクス(WER、ROUGE-L、TER)と意味要素識別のための特別なメトリクスを組み合わせた革新的な評価アプローチを紹介します。我々の実験により、GPT-4oと数発のプロンプトが画期的な性能(ROUGE-L: 0.9722、WER: 0.0730)を達成し、LLMが大規模な訓練なしに、ドメイン固有の非構造化テキストを構造化フォーマットに確実に変換できることを初めて実証した。モデルの性能は一般にサイズとともにスケールするが、Llama3.1:8bのような小規模なモデルでは、ターゲットを絞った微調整による最適化が可能であるという驚くべき可能性を発見した。これらの知見は、医療記録から技術文書まで、様々な領域にわたる自動構造化データ生成の新たな可能性を開くものであり、組織が非構造化情報を処理し利用する方法を変革する可能性がある。
要約(オリジナル)
The exponential growth of unstructured text data presents a fundamental challenge in modern data management and information retrieval. While Large Language Models (LLMs) have shown remarkable capabilities in natural language processing, their potential to transform unstructured text into standardized, structured formats remains largely unexplored – a capability that could revolutionize data processing workflows across industries. This study breaks new ground by systematically evaluating LLMs’ ability to convert unstructured recipe text into the structured Cooklang format. Through comprehensive testing of four models (GPT-4o, GPT-4o-mini, Llama3.1:70b, and Llama3.1:8b), an innovative evaluation approach is introduced that combines traditional metrics (WER, ROUGE-L, TER) with specialized metrics for semantic element identification. Our experiments reveal that GPT-4o with few-shot prompting achieves breakthrough performance (ROUGE-L: 0.9722, WER: 0.0730), demonstrating for the first time that LLMs can reliably transform domain-specific unstructured text into structured formats without extensive training. Although model performance generally scales with size, we uncover surprising potential in smaller models like Llama3.1:8b for optimization through targeted fine-tuning. These findings open new possibilities for automated structured data generation across various domains, from medical records to technical documentation, potentially transforming the way organizations process and utilize unstructured information.
arxiv情報
著者 | William Brach,Kristián Košťál,Michal Ries |
発行日 | 2025-05-05 12:25:44+00:00 |
arxivサイト | arxiv_id(pdf) |