The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats

要約

非構造化されたテキストデータの指数関数的な成長は、最新のデータ管理と情報の検索における基本的な課題を提示します。
大規模な言語モデル(LLM)は自然言語処理において顕著な能力を示していますが、非構造化されたテキストを標準化された構造化された形式に変換する可能性はほとんど未開拓のままです。
この研究は、非構造化されたレシピテキストを構造化されたCooklang形式に変換するLLMSの能力を体系的に評価することにより、新境地を破ります。
4つのモデル(GPT-4O、GPT-4O-MINI、LLAMA3.1:70B、およびLLAMA3.1:8B)の包括的なテストを通じて、セマンティック要素識別のための特殊なメトリックと従来のメトリック(wer、rouge-l、ter)を組み合わせた革新的な評価アプローチが導入されます。
私たちの実験では、少数のショットプロンプトを伴うGPT-4Oが画期的なパフォーマンスを達成することが明らかになり(Rouge-L:0.9722、WER:0.0730)、LLMがドメイン固有の非構造化テキストを広範なトレーニングなしで構造化された形式に確実に変換できることを示しています。
モデルのパフォーマンスは一般にサイズのスケーリングですが、ターゲットを絞った微調整を通じて最適化するために、llama3.1:8bのような小さなモデルで驚くべき可能性を明らかにします。
これらの調査結果は、医療記録から技術文書まで、さまざまなドメインにわたって自動化された構造化データ生成の新しい可能性を開き、組織が非構造化されていない情報を処理および利用する方法を潜在的に変換する可能性があります。

要約(オリジナル)

The exponential growth of unstructured text data presents a fundamental challenge in modern data management and information retrieval. While Large Language Models (LLMs) have shown remarkable capabilities in natural language processing, their potential to transform unstructured text into standardized, structured formats remains largely unexplored – a capability that could revolutionize data processing workflows across industries. This study breaks new ground by systematically evaluating LLMs’ ability to convert unstructured recipe text into the structured Cooklang format. Through comprehensive testing of four models (GPT-4o, GPT-4o-mini, Llama3.1:70b, and Llama3.1:8b), an innovative evaluation approach is introduced that combines traditional metrics (WER, ROUGE-L, TER) with specialized metrics for semantic element identification. Our experiments reveal that GPT-4o with few-shot prompting achieves breakthrough performance (ROUGE-L: 0.9722, WER: 0.0730), demonstrating for the first time that LLMs can reliably transform domain-specific unstructured text into structured formats without extensive training. Although model performance generally scales with size, we uncover surprising potential in smaller models like Llama3.1:8b for optimization through targeted fine-tuning. These findings open new possibilities for automated structured data generation across various domains, from medical records to technical documentation, potentially transforming the way organizations process and utilize unstructured information.

arxiv情報

著者 William Brach,Kristián Košťál,Michal Ries
発行日 2025-03-04 14:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク