要約
検索拡張生成 (RAG) は、オープンドメインの質問応答におけるタスク全体で顕著なパフォーマンスを示します。
ただし、従来の検索エンジンは浅いコンテンツを取得する可能性があり、複雑な多層情報を処理する LLM の能力が制限されます。
これに対処するために、Web トラバーサルを実行する LLM の能力を評価するために設計されたベンチマークである WebWalkerQA を導入します。
Web サイトのサブページを横断して高品質のデータを体系的に抽出する LLM の能力を評価します。
私たちは、探索批判パラダイムを通じて人間のような Web ナビゲーションを模倣するマルチエージェント フレームワークである WebWalker を提案します。
広範な実験結果は、WebWalkerQA が困難であることを示しており、現実世界のシナリオにおける水平および垂直統合を通じて、WebWalker と組み合わせた RAG の有効性を実証しています。
要約(オリジナル)
Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website’s subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios.
arxiv情報
著者 | Jialong Wu,Wenbiao Yin,Yong Jiang,Zhenglin Wang,Zekun Xi,Runnan Fang,Linhai Zhang,Yulan He,Deyu Zhou,Pengjun Xie,Fei Huang |
発行日 | 2025-01-14 15:06:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google