要約
大規模な言語モデル(LLM)は、さまざまなドメインで質問に答える際に印象的な能力を示していますが、多くの場合、専門的および最新の知識を必要とする質問に関する幻覚の問題に遭遇します。
この制限に対処するために、検索された生成(RAG)技術が提案されており、それが外部のソースから関連情報を取得して回答を通知します。
ただし、既存のRAGメソッドは通常、ベクトル化されたテキストデータベースや知識グラフなどの単一のタイプの外部データに焦点を当てており、テキストとリレーショナル情報の両方を含む半構造化データに関する実際の質問をうまく処理できません。
このギャップを埋めるために、Pasemiqaを紹介します。これは、質問に答えるために半構造化データのテキストとリレーショナル情報を共同で活用する新しいアプローチです。
Pasemiqaは、まず、関連するテキストとリレーショナル情報を特定して半構造化データの質問に答える計画を生成し、次にLLMエージェントを使用して半構造化データを通過し、必要な情報を抽出します。
私たちの経験的結果は、さまざまなドメインからのさまざまな半構造化データセットにわたるPasemiqaの有効性を示しており、半構造化データの質問回答システムの精度と信頼性を改善する可能性を示しています。
要約(オリジナル)
Large language models (LLMs) have shown impressive abilities in answering questions across various domains, but they often encounter hallucination issues on questions that require professional and up-to-date knowledge. To address this limitation, retrieval-augmented generation (RAG) techniques have been proposed, which retrieve relevant information from external sources to inform their responses. However, existing RAG methods typically focus on a single type of external data, such as vectorized text database or knowledge graphs, and cannot well handle real-world questions on semi-structured data containing both text and relational information. To bridge this gap, we introduce PASemiQA, a novel approach that jointly leverages text and relational information in semi-structured data to answer questions. PASemiQA first generates a plan to identify relevant text and relational information to answer the question in semi-structured data, and then uses an LLM agent to traverse the semi-structured data and extract necessary information. Our empirical results demonstrate the effectiveness of PASemiQA across different semi-structured datasets from various domains, showcasing its potential to improve the accuracy and reliability of question answering systems on semi-structured data.
arxiv情報
| 著者 | Hansi Yang,Qi Zhang,Wei Jiang,Jianguo Li |
| 発行日 | 2025-02-28 14:26:47+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google