Towards Robustness of Text-to-Visualization Translation against Lexical and Phrasal Variability

要約

Text-to-Vis は、自然言語処理 (NLP) 分野で新たに登場したタスクであり、自然言語の質問 (NLQ) からデータの視覚化を自動的に生成することを目的としています。
進歩にもかかわらず、既存の text-to-vis モデルは、質問内の単語とデータ スキーマ内のトークン間の語彙一致に大きく依存していることがよくあります。
この語彙一致への過度の依存は、入力変動に対するモデルの堅牢性のレベルの低下につながる可能性があります。
この研究では、これまで調査されていなかった領域である、現在の text-to-vis モデルの堅牢性を徹底的に調査します。
特に、最初の堅牢性データセット nvBench-Rob を構築します。これには、元の text-to-vis ベンチマーク nvBench に基づいた多様な語彙および語句のバリエーションが含まれています。
次に、この新しいデータセットに対する既存の text-to-vis モデルのパフォーマンスが劇的に低下することがわかりました。これは、これらの手法が全体的に不十分な堅牢性を示していることを意味します。
最後に、これら 2 つの変種における入力摂動に対処するために特別に設計された、GRED と呼ばれる、検索拡張生成 (RAG) 技術に基づく新しいフレームワークを提案します。
このフレームワークは、NLQ-Retrieval Generator、Visualization Query-Retrieval Retuner、Annotation-based Debugger の 3 つの部分で構成されており、それぞれ自然言語のバリアント、プログラミング スタイルの違い、データ スキーマのバリアントによってもたらされる課題に取り組むために使用されます。
広範な実験評価により、Text-to-Vis 分野の最先端モデル RVisNet と比較して、GRED はモデルの堅牢性の点で優れたパフォーマンスを発揮し、提案された nvBench-Rob データセットの精度が 32% 向上していることが示されています。

要約(オリジナル)

Text-to-Vis is an emerging task in the natural language processing (NLP) area that aims to automatically generate data visualizations from natural language questions (NLQs). Despite their progress, existing text-to-vis models often heavily rely on lexical matching between words in the questions and tokens in data schemas. This overreliance on lexical matching may lead to a diminished level of model robustness against input variations. In this study, we thoroughly examine the robustness of current text-to-vis models, an area that has not previously been explored. In particular, we construct the first robustness dataset nvBench-Rob, which contains diverse lexical and phrasal variations based on the original text-to-vis benchmark nvBench. Then, we found that the performance of existing text-to-vis models on this new dataset dramatically drops, implying that these methods exhibit inadequate robustness overall. Finally, we propose a novel framework based on Retrieval-Augmented Generation (RAG) technique, named GRED, specifically designed to address input perturbations in these two variants. The framework consists of three parts: NLQ-Retrieval Generator, Visualization Query-Retrieval Retuner and Annotation-based Debugger, which are used to tackle the challenges posed by natural language variants, programming style differences and data schema variants, respectively. Extensive experimental evaluations show that, compared to the state-of-the-art model RGVisNet in the Text-to-Vis field, GRED performs better in terms of model robustness, with a 32% increase in accuracy on the proposed nvBench-Rob dataset.

arxiv情報

著者 Jinwei Lu,Yuanfeng Song,Haodi Zhang,Chen Zhang,Raymond Chi-Wing Wong
発行日 2024-04-11 05:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク