要約
データ視覚化は、大規模なデータセットから洞察を得る効果的なツールとして登場しました。
データ視覚化のプログラミング言語を操作するのは難しいため、自然言語からの自動データ視覚化生成 (Text-to-Vis) の人気が高まっています。
英語の Text-to-Vis に関する多大な研究努力にもかかわらず、中国語の質問からのデータ視覚化生成に関する研究はまだ行われていません。
これを動機として、私たちは論文の中で中国語の Text-to-Vis データセットを提案し、この問題に取り組む最初の試みを実証します。
私たちのモデルは、多言語 BERT をエンコーダーとして統合し、言語間の能力を強化し、単語表現の学習に $n$-gram 情報を注入します。
私たちの実験結果は、私たちのデータセットが挑戦的であり、さらなる研究に値することを示しています。
要約(オリジナル)
Data visualization has emerged as an effective tool for getting insights from massive datasets. Due to the hardness of manipulating the programming languages of data visualization, automatic data visualization generation from natural languages (Text-to-Vis) is becoming increasingly popular. Despite the plethora of research effort on the English Text-to-Vis, studies have yet to be conducted on data visualization generation from questions in Chinese. Motivated by this, we propose a Chinese Text-to-Vis dataset in the paper and demonstrate our first attempt to tackle this problem. Our model integrates multilingual BERT as the encoder, boosts the cross-lingual ability, and infuses the $n$-gram information into our word representation learning. Our experimental results show that our dataset is challenging and deserves further research.
arxiv情報
著者 | Yan Ge,Victor Junqiu Wei,Yuanfeng Song,Jason Chen Zhang,Raymond Chi-Wing Wong |
発行日 | 2023-09-14 12:16:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google