Focus, Merge, Rank: Improved Question Answering Based on Semi-structured Knowledge Bases

要約

多くの現実世界の設定では、機械学習モデルとインタラクティブシステムは、構造化された知識、たとえば知識グラフやテーブル、および非構造化コンテンツ、例えば自然言語文書の両方にアクセスできます。
ただし、ほとんどはどちらにも依存しています。
半構造化された知識ベース(SKB)は、構造化されたデータ内のノードに非構造化コンテンツをリンクすることにより、このギャップを埋め、それにより知識へのアクセスと使用のための新しい戦略を可能にします。
この作業では、マルチホップの質問応答のためのモジュール式SKBベースのフレームワークであるFocuseDretrieverを提示します。
コンポーネント(VSSベースのエンティティ検索、LLMベースのCypherクエリの生成、およびペアワイズ再ランク)を統合し、3つのスタークベンチマークテストセットすべてで最新のメソッドを上回り、多様なドメインと複数のパフォーマンスメトリックをカバーします。
平均最初のヒット率は、2番目に良いメソッドの率を25.7%超えています。
FocusedRetrieverレバレッジ(1)大規模な言語モデル(LLMS)の容量を構造化されていないテキストからリレーショナルな事実とエンティティの属性を抽出します。
一般性のために、私たちは評価にFocusedRetrieverにベースLLMのみを組み込んでいます。
ただし、中間結果の分析は、Finetuningを含むさらにアップグレードのいくつかの機会を強調しています。
ソースコードは、https://github.com/kramerlab/focusedretrieverで公開されています。

要約(オリジナル)

In many real-world settings, machine learning models and interactive systems have access to both structured knowledge, e.g., knowledge graphs or tables, and unstructured content, e.g., natural language documents. However, most rely on either. Semi-Structured Knowledge Bases (SKBs) bridge this gap by linking unstructured content to nodes within structured data, thereby enabling new strategies for knowledge access and use. In this work, we present FocusedRetriever, a modular SKB-based framework for multi-hop question answering. It integrates components (VSS-based entity search, LLM-based generation of Cypher queries and pairwise re-ranking) in a way that enables it to outperform state-of-the-art methods across all three STaRK benchmark test sets, covering diverse domains and multiple performance metrics. The average first-hit rate exceeds that of the second-best method by 25.7%. FocusedRetriever leverages (1) the capacity of Large Language Models (LLMs) to extract relational facts and entity attributes from unstructured text, (2) node set joins to filter answer candidates based on these extracted triplets and constraints, (3) vector similarity search to retrieve and rank relevant unstructured content, and (4) the contextual capabilities of LLMs to finally rank the top-k answers. For generality, we only incorporate base LLMs in FocusedRetriever in our evaluation. However, our analysis of intermediate results highlights several opportunities for further upgrades including finetuning. The source code is publicly available at https://github.com/kramerlab/FocusedRetriever .

arxiv情報

著者 Derian Boer,Stephen Roth,Stefan Kramer
発行日 2025-05-14 09:35:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク