PixT3: Pixel-based Table To Text generation

要約

表からテキストへの生成には、構造化された表形式データが与えられた場合に、適切なテキスト記述を生成することが含まれます。
ニューラル ネットワーク モデルの人気と大規模なデータセットの利用可能性のおかげで、近年ますます注目を集めています。
既存のメソッドに共通する特徴は、入力を文字列として処理することです。つまり、線形化手法を使用することにより、テーブル内の情報が常に保持されるわけではなく、冗長で、スペース効率に欠けます。
私たちは、データからテキストへの生成を視覚認識タスクとして再考し、入力を文字列形式でレンダリングする必要性を取り除くことを提案します。
既存のモデルが直面する線形化と入力サイズ制限の課題を克服する、マルチモーダルな表からテキストへのモデルである PixT3 を紹介します。
PixT3 は、テーブル構造の認識を強化するための新しい自己教師あり学習目標を使用してトレーニングされており、無制限の制御された生成設定に適用できます。
ToTTo および Logic2Text ベンチマークの実験では、PixT3 が競争力があり、一部の設定ではテキストのみで動作するジェネレーターよりも優れていることが示されています。

要約(オリジナル)

Table-to-text generation involves generating appropriate textual descriptions given structured tabular data. It has attracted increasing attention in recent years thanks to the popularity of neural network models and the availability of large-scale datasets. A common feature across existing methods is their treatment of the input as a string, i.e., by employing linearization techniques that do not always preserve information in the table, are verbose, and lack space efficiency. We propose to rethink data-to-text generation as a visual recognition task, removing the need for rendering the input in a string format. We present PixT3, a multimodal table-to-text model that overcomes the challenges of linearization and input size limitations encountered by existing models. PixT3 is trained with a new self-supervised learning objective to reinforce table structure awareness and is applicable to open-ended and controlled generation settings. Experiments on the ToTTo and Logic2Text benchmarks show that PixT3 is competitive and, in some settings, superior to generators that operate solely on text.

arxiv情報

著者 Iñigo Alonso,Eneko Agirre,Mirella Lapata
発行日 2024-02-22 16:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク