FormaT5: Abstention and Examples for Conditional Table Formatting with Natural Language

要約

書式設定は、視覚化、プレゼンテーション、分析のためのテーブルの重要なプロパティです。
スプレッドシート ソフトウェアを使用すると、ユーザーはデータに依存する条件付き書式設定 (CF) ルールを記述して、テーブルを自動的に書式設定できます。
このようなルールを作成するには、基礎となるロジックを理解して実装する必要があるため、ユーザーにとっては困難なことがよくあります。
ここでは、ターゲット テーブルと必要な書式設定ロジックの自然言語記述を指定して CF ルールを生成できるトランスフォーマー ベースのモデルである FormaT5 を紹介します。
これらのタスクに対するユーザーの説明は、指定が不十分であるか曖昧であることが多く、コード生成システムが 1 ステップで目的のルールを正確に学習することが困難であることがわかりました。
このアンダースペックの問題に取り組み、引数のエラーを最小限に抑えるために、FormaT5 は棄権目標を通じてプレースホルダーを予測する方法を学習します。
これらのプレースホルダーは、2 番目のモデルによって、または書式設定する必要がある行の例が利用可能な場合には、プログラミング・バイ・サンプル・システムによって埋めることができます。
多様で実際のシナリオで FormaT5 を評価するために、4 つの異なるソースから収集された現実世界の記述を含む 1,053 の CF タスクの広範なベンチマークを作成しました。
この分野の研究を促進するために、私たちはベンチマークを公開しています。
棄権と充填により、FormaT5 は、例の有無にかかわらず、ベンチマークで 8 つの異なるニューラル アプローチよりも優れたパフォーマンスを発揮できます。
私たちの結果は、ドメイン固有の学習システムを構築することの価値を示しています。

要約(オリジナル)

Formatting is an important property in tables for visualization, presentation, and analysis. Spreadsheet software allows users to automatically format their tables by writing data-dependent conditional formatting (CF) rules. Writing such rules is often challenging for users as it requires them to understand and implement the underlying logic. We present FormaT5, a transformer-based model that can generate a CF rule given the target table and a natural language description of the desired formatting logic. We find that user descriptions for these tasks are often under-specified or ambiguous, making it harder for code generation systems to accurately learn the desired rule in a single step. To tackle this problem of under-specification and minimise argument errors, FormaT5 learns to predict placeholders though an abstention objective. These placeholders can then be filled by a second model or, when examples of rows that should be formatted are available, by a programming-by-example system. To evaluate FormaT5 on diverse and real scenarios, we create an extensive benchmark of 1053 CF tasks, containing real-world descriptions collected from four different sources. We release our benchmarks to encourage research in this area. Abstention and filling allow FormaT5 to outperform 8 different neural approaches on our benchmarks, both with and without examples. Our results illustrate the value of building domain-specific learning systems.

arxiv情報

著者 Mukul Singh,José Cambronero,Sumit Gulwani,Vu Le,Carina Negreanu,Elnaz Nouri,Mohammad Raza,Gust Verbruggen
発行日 2023-11-01 17:31:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, cs.PL パーマリンク