PixT3: Pixel-based Table-To-Text Generation

要約

Table-to-text生成は、構造化された表データから適切なテキスト記述を生成する。近年、ニューラルネットワークモデルの人気と大規模データセットの利用可能性のおかげで、この手法への注目が高まっている。既存の手法に共通する特徴は、入力を文字列として扱うこと、すなわち、表の情報を必ずしも保持せず、冗長で、スペース効率に欠ける線形化技術を採用することである。我々は、データからテキストへの変換を視覚認識タスクとして再考し、入力を文字列形式でレンダリングする必要性を取り除くことを提案する。我々は、既存のモデルが直面する線形化と入力サイズの制限という課題を克服した、マルチモーダルな表-テキスト変換モデルであるPixT3を提示する。PixT3は、表構造の認識を強化するための新しい自己教師付き学習目標で学習され、オープンエンド及び制御された生成設定に適用可能である。ToTToとLogic2Textベンチマークでの実験により、PixT3はテキストのみで動作するジェネレータと競合し、いくつかの設定では優れていることが示された。

要約(オリジナル)

Table-to-text generation involves generating appropriate textual descriptions given structured tabular data. It has attracted increasing attention in recent years thanks to the popularity of neural network models and the availability of large-scale datasets. A common feature across existing methods is their treatment of the input as a string, i.e., by employing linearization techniques that do not always preserve information in the table, are verbose, and lack space efficiency. We propose to rethink data-to-text generation as a visual recognition task, removing the need for rendering the input in a string format. We present PixT3, a multimodal table-to-text model that overcomes the challenges of linearization and input size limitations encountered by existing models. PixT3 is trained with a new self-supervised learning objective to reinforce table structure awareness and is applicable to open-ended and controlled generation settings. Experiments on the ToTTo and Logic2Text benchmarks show that PixT3 is competitive and, in some settings, superior to generators that operate solely on text.

arxiv情報

著者 Iñigo Alonso,Eneko Agirre,Mirella Lapata
発行日 2024-06-03 17:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク