CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale and High Quality

要約

一般的なデータからテキストへのデータセットには 3 つの問題が存在します。
まず、大規模なデータセットにはノイズが含まれているか、実際のアプリケーション シナリオが欠如しています。
第 2 に、実際のアプリケーションに近いデータセットのサイズは比較的小さいです。
最後に、現在のデータセットは英語に偏っており、他の言語は十分に調査されていません。
これらの制限を軽減するために、本稿では、大規模かつ高品質の実用的な中国の解答対配列データセットである CATS を紹介します。
このデータセットは、実用的な TableQA システムで回答のテキスト説明を生成することを目的としています。
さらに、入力 SQL とテーブルの間の構造的なギャップを埋め、より適切なセマンティック調整を確立するために、2 つのハイブリッド知識リソースの共同エンコード空間を確立し、このタスクをグラフからテキストへの問題に変換する統合グラフ変換アプローチを提案します。

実験結果は、提案手法の有効性を示しています。
CATS のさらなる分析により、データセットの高品質と課題の両方が証明されます。

要約(オリジナル)

There are three problems existing in the popular data-to-text datasets. First, the large-scale datasets either contain noise or lack real application scenarios. Second, the datasets close to real applications are relatively small in size. Last, current datasets bias in the English language while leaving other languages underexplored. To alleviate these limitations, in this paper, we present CATS, a pragmatic Chinese answer-to-sequence dataset with large scale and high quality. The dataset aims to generate textual descriptions for the answer in the practical TableQA system. Further, to bridge the structural gap between the input SQL and table and establish better semantic alignments, we propose a Unified Graph Transformation approach to establish a joint encoding space for the two hybrid knowledge resources and convert this task to a graph-to-text problem. The experiment results demonstrate the effectiveness of our proposed method. Further analysis on CATS attests to both the high quality and challenges of the dataset.

arxiv情報

著者 Liang Li,Ruiying Geng,Chengyang Fang,Bing Li,Can Ma,Rongyu Cao,Binhua Li,Fei Huang,Yongbin Li
発行日 2023-06-20 12:02:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク