要約
データからテキスト (D2T) とテキストからデータ (T2D) は、グラフや表などの構造化データを流暢なテキストに、またはその逆に変換するデュアル タスクです。
これらのタスクは通常、個別に処理され、単一のソースから抽出されたコーパスを使用します。
現在のシステムは、D2T または T2D タスクで微調整された事前トレーニング済みの言語モデルを活用しています。
このアプローチには 2 つの主な制限があります。まず、タスクとソースごとに個別のシステムを調整する必要があります。
第二に、学習は利用可能なコーパスの不足によって制限されます。
このホワイト ペーパーでは、複数の異種ソースからデータを入手できる、より一般的なシナリオを検討します。
特定のデータ形式とセマンティック ドメインを持つ各ソースは、テキストと構造化データの非並列コーパスを提供します。
テキストとデータの複数のソースから生じる多様性を表現できるようにする、絡み合っていないスタイルとコンテンツ変数を備えた変分自動エンコーダー モデルを導入します。
私たちのモデルは、D2T と T2D のタスクを共同で処理するように設計されています。
いくつかのデータセットでモデルを評価し、複数のソースから学習することで、モデルが教師付きの単一ソースの対応物とのパフォーマンス ギャップを埋め、場合によってはそれを上回ることを示します。
要約(オリジナル)
Data-to-text (D2T) and text-to-data (T2D) are dual tasks that convert structured data, such as graphs or tables into fluent text, and vice versa. These tasks are usually handled separately and use corpora extracted from a single source. Current systems leverage pre-trained language models fine-tuned on D2T or T2D tasks. This approach has two main limitations: first, a separate system has to be tuned for each task and source; second, learning is limited by the scarcity of available corpora. This paper considers a more general scenario where data are available from multiple heterogeneous sources. Each source, with its specific data format and semantic domain, provides a non-parallel corpus of text and structured data. We introduce a variational auto-encoder model with disentangled style and content variables that allows us to represent the diversity that stems from multiple sources of text and data. Our model is designed to handle the tasks of D2T and T2D jointly. We evaluate our model on several datasets, and show that by learning from multiple sources, our model closes the performance gap with its supervised single-source counterpart and outperforms it in some cases.
arxiv情報
著者 | Song Duong,Alberto Lumbreras,Mike Gartrell,Patrick Gallinari |
発行日 | 2023-02-22 10:39:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google