要約
ロングコンテキスト機能は、複雑で長い入力タスクに取り組む大規模言語モデル (LLM) にとって不可欠です。
長いコンテキスト向けに LLM を最適化するために多くの努力が払われてきましたが、長い入力を確実に処理するという課題は依然として残ります。
このペーパーでは、長いテキストをグラフに構造化し、エージェントを使用してこのグラフを自律的に探索することで、長いテキストを処理するように設計されたグラフベースのエージェント システムである GraphReader を紹介します。
質問を受け取ると、エージェントはまず段階的な分析を行い、合理的な計画を立てます。
次に、一連の事前定義された関数を呼び出してノードの内容と隣接ノードを読み取り、グラフの粗いものから細かいものまでの探索を容易にします。
調査中、エージェントは継続的に新しい洞察を記録し、現在の状況を反映して、答えを生成するのに十分な情報を収集するまでプロセスを最適化します。
LV-Eval データセットの実験結果では、4k コンテキスト ウィンドウを使用する GraphReader が、16k から 256k までのコンテキスト長にわたって一貫して GPT-4-128k を大幅に上回っていることが明らかになりました。
さらに、私たちのアプローチは、4 つの困難なシングルホップおよびマルチホップのベンチマークで優れたパフォーマンスを示しています。
要約(オリジナル)
Long-context capabilities are essential for large language models (LLMs) to tackle complex and long-input tasks. Despite numerous efforts made to optimize LLMs for long contexts, challenges persist in robustly processing long inputs. In this paper, we introduce GraphReader, a graph-based agent system designed to handle long texts by structuring them into a graph and employing an agent to explore this graph autonomously. Upon receiving a question, the agent first undertakes a step-by-step analysis and devises a rational plan. It then invokes a set of predefined functions to read node content and neighbors, facilitating a coarse-to-fine exploration of the graph. Throughout the exploration, the agent continuously records new insights and reflects on current circumstances to optimize the process until it has gathered sufficient information to generate an answer. Experimental results on the LV-Eval dataset reveal that GraphReader, using a 4k context window, consistently outperforms GPT-4-128k across context lengths from 16k to 256k by a large margin. Additionally, our approach demonstrates superior performance on four challenging single-hop and multi-hop benchmarks.
arxiv情報
著者 | Shilong Li,Yancheng He,Hangyu Guo,Xingyuan Bu,Ge Bai,Jie Liu,Jiaheng Liu,Xingwei Qu,Yangguang Li,Wanli Ouyang,Wenbo Su,Bo Zheng |
発行日 | 2024-11-05 16:51:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google