Leveraging Large Language Models for Web Scraping

要約

大規模言語モデル (LLM) は、人間のタスクを複製し、生産性を向上させるという優れた機能を実証します。
ただし、データ抽出への直接の適用には、事実の正確さよりも流暢さを優先することと、特定の情報を操作する能力が制限されるため、制限が生じます。
したがって、これらの制限を克服するために、この研究では、事前トレーニングされた LLM の知識表現力と、RAG モデルによって可能になる対象を絞った情報アクセスを活用し、言語生成用に設計された RAG モデルの汎用の正確なデータ スクレイピング レシピを調査します。
よりモジュール化された解釈可能な方法で知識を取得するために、潜在的な知識取得機能を備えた事前トレーニング済み言語モデルを使用します。これにより、モデルは大規模なコーパスから文書を取得して処理できるようになります。
私たちは RAG モデル アーキテクチャを利用し、次の 3 つのタスクの下でその機能を詳細に分析しました。(i) HTML 要素の意味分類、(ii) 効果的な理解のための HTML テキストのチャンク化、(iii) さまざまな LLM とランキング アルゴリズムからの結果の比較

これまでの研究では、HTML の理解と抽出のための専用のアーキテクチャとトレーニング手順を開発しましたが、効果的なチャンキング、検索、およびランク付けアルゴリズムを追加した、標準の自然言語で事前トレーニングされた LLM が、複雑なデータを抽出するための効率的なデータ スクレイピング ツールであることが証明できることを示しました。
非構造化テキストからのデータ。
今後の研究の方向性には、提案されている RAG ベースのデータ抽出フレームワーク内での出所追​​跡と動的な知識更新の課題への対処が含まれます。
これらの制限を克服することで、このアプローチはテキスト情報の膨大なリポジトリからのデータ抽出に革命をもたらす可能性を秘めています。

要約(オリジナル)

Large Language Models (LLMs) demonstrate remarkable capabilities in replicating human tasks and boosting productivity. However, their direct application for data extraction presents limitations due to a prioritisation of fluency over factual accuracy and a restricted ability to manipulate specific information. Therefore to overcome these limitations, this research leverages the knowledge representation power of pre-trained LLMs and the targeted information access enabled by RAG models, this research investigates a general-purpose accurate data scraping recipe for RAG models designed for language generation. To capture knowledge in a more modular and interpretable way, we use pre trained language models with a latent knowledge retriever, which allows the model to retrieve and attend over documents from a large corpus. We utilised RAG model architecture and did an in-depth analysis of their capabilities under three tasks: (i) Semantic Classification of HTML elements, (ii) Chunking HTML text for effective understanding, and (iii) comparing results from different LLMs and ranking algorithms. While previous work has developed dedicated architectures and training procedures for HTML understanding and extraction, we show that LLMs pre-trained on standard natural language with an addition of effective chunking, searching and ranking algorithms, can prove to be efficient data scraping tool to extract complex data from unstructured text. Future research directions include addressing the challenges of provenance tracking and dynamic knowledge updates within the proposed RAG-based data extraction framework. By overcoming these limitations, this approach holds the potential to revolutionise data extraction from vast repositories of textual information.

arxiv情報

著者 Aman Ahluwalia,Suhrud Wani
発行日 2024-06-12 14:15:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク