WebWalker: Benchmarking LLMs in Web Traversal

要約

検索拡張生成 (RAG) は、オープンドメインの質問応答におけるタスク全体で顕著なパフォーマンスを示します。
ただし、従来の検索エンジンは浅いコンテンツを取得する可能性があり、複雑な多層情報を処理する LLM の能力が制限されます。
これに対処するために、Web トラバーサルを実行する LLM の能力を評価するために設計されたベンチマークである WebWalkerQA を導入します。
Web サイトのサブページを横断して高品質のデータを体系的に抽出する LLM の能力を評価します。
私たちは、探索批判パラダイムを通じて人間のような Web ナビゲーションを模倣するマルチエージェント フレームワークである WebWalker を提案します。
広範な実験結果は、WebWalkerQA が困難であることを示しており、現実世界のシナリオにおける水平および垂直統合を通じて、WebWalker と組み合わせた RAG の有効性を実証しています。

要約(オリジナル)

Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website’s subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios.

arxiv情報

著者 Jialong Wu,Wenbiao Yin,Yong Jiang,Zhenglin Wang,Zekun Xi,Runnan Fang,Linhai Zhang,Yulan He,Deyu Zhou,Pengjun Xie,Fei Huang
発行日 2025-01-14 15:06:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク