PixT3: Pixel-based Table To Text generation

要約

Table-to-Text は伝統的に、言語からテキストへの線形問題としてアプローチされてきました。
ただし、視覚的に表現されたテーブルには視覚的な情報が豊富に含まれており、データとその関係を表現するための簡潔で効果的な形式として機能します。
テキストベースのアプローチを使用する場合、線形化プロセスの後、この情報は失われるか、スペース効率の悪い方法で表現されます。
この非効率性はテキストベースのアプローチにとって常に課題であり、大きなテーブルでの処理に苦労しています。
この論文では、表の画像表現が典型的なテキスト線形化よりもスペース効率が高く、マルチモーダルアプローチが表からテキストへのタスクで競争力があることを実証します。
PixT3 は、純粋な Table-to-Text 設定で ToTTo ベンチマークの最先端 (SotA) を上回るパフォーマンスを示し、制御された Table-to-Text シナリオでも競争力を維持する、マルチモーダル Table-to-Text モデルです。
また、目に見えないデータセットでの一般化も優れており、すべての世代設定で ToTTo SotA を上回ります。
さらに、テーブルの構造認識を強化するための新しい中級トレーニング カリキュラムを導入し、モデルの生成と全体的な忠実性の向上につながります。

要約(オリジナル)

Table-to-Text has been traditionally approached as a linear language to text problem. However, visually represented tables are rich in visual information and serve as a concise, effective form of representing data and its relationships. When using text-based approaches, after the linearization process, this information is either lost or represented in a space inefficient manner. This inefficiency has remained a constant challenge for text-based approaches making them struggle with large tables. In this paper, we demonstrate that image representation of tables are more space-efficient than the typical textual linearizations, and multi-modal approaches are competitive in Table-to-Text tasks. We present PixT3, a multimodal table-to-text model that outperforms the state-of-the-art (SotA) in the ToTTo benchmark in a pure Table-to-Text setting while remaining competitive in controlled Table-to-Text scenarios. It also generalizes better in unseen datasets, outperforming ToTTo SotA in all generation settings. Additionally, we introduce a new intermediate training curriculum to reinforce table structural awareness, leading to improved generation and overall faithfulness of the models.

arxiv情報

著者 Iñigo Alonso,Eneko Agirre,Mirella Lapata
発行日 2023-11-16 11:32:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク