RETQA: A Large-Scale Open-Domain Tabular Question Answering Dataset for Real Estate Sector

要約

不動産市場は、物件の詳細、市場動向、価格変動などの構造化データに大きく依存しています。
ただし、この分野には特殊な表形式質問応答データセットが存在しないため、自動質問応答システムの開発は制限されています。
このギャップを埋めるために、不動産向け初の大規模オープンドメイン中国語表形式質問応答データセットである RETQA を導入します。
RETQA は、不動産情報、不動産会社の財務情報、土地競売情報という 3 つの主要ドメイン内の 16 のサブフィールドにわたる 4,932 のテーブルと 20,762 の質問と回答のペアで構成されています。
既存の表形式の質問応答データセットと比較すると、RETQA は、長いテーブル構造、オープンドメインの検索、マルチドメイン クエリという 3 つの重要な要素により、大きな課題を抱えています。
これらの課題に取り組むために、私たちは SLUTQA フレームワークを提案します。これは、大規模な言語モデルと音声言語理解タスクを統合して、検索と応答の精度を向上させます。
広範な実験により、SLUTQA がコンテキスト内学習によって RETQA 上の大規模言語モデルのパフォーマンスを大幅に向上させることが実証されました。
RETQA と SLUTQA は、不動産分野における表形式の質問回答研究を推進するための重要なリソースを提供し、オープンドメインおよび長い表形式の質問回答における重要な課題に対処します。
データセットとコードは \url{https://github.com/jensen-w/RETQA} で公開されています。

要約(オリジナル)

The real estate market relies heavily on structured data, such as property details, market trends, and price fluctuations. However, the lack of specialized Tabular Question Answering datasets in this domain limits the development of automated question-answering systems. To fill this gap, we introduce RETQA, the first large-scale open-domain Chinese Tabular Question Answering dataset for Real Estate. RETQA comprises 4,932 tables and 20,762 question-answer pairs across 16 sub-fields within three major domains: property information, real estate company finance information and land auction information. Compared with existing tabular question answering datasets, RETQA poses greater challenges due to three key factors: long-table structures, open-domain retrieval, and multi-domain queries. To tackle these challenges, we propose the SLUTQA framework, which integrates large language models with spoken language understanding tasks to enhance retrieval and answering accuracy. Extensive experiments demonstrate that SLUTQA significantly improves the performance of large language models on RETQA by in-context learning. RETQA and SLUTQA provide essential resources for advancing tabular question answering research in the real estate domain, addressing critical challenges in open-domain and long-table question-answering. The dataset and code are publicly available at \url{https://github.com/jensen-w/RETQA}.

arxiv情報

著者 Zhensheng Wang,Wenmian Yang,Kun Zhou,Yiquan Zhang,Weijia Jia
発行日 2024-12-13 12:45:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク