要約
この作業では、ユーザーがセルを選択し、自然言語ジェネレーターによって自動的に生成されるその自然言語の説明を読み取ることによって、テーブル内のコンテンツを探索する、ユーザー制御のテーブルからテキストへの生成を研究します。
このような生成モデルは通常、慎重に選択されたセルの組み合わせ (クリーン セル選択) から学習します。
ただし、実際には、ユーザーは予期しない、冗長な、または一貫性のないセルの組み合わせ (ノイズの多いセル選択) を選択する場合があります。
実験では、モデルはトレーニング データと同じ分布からのテスト セットではうまく機能しますが、実際のノイズの多いユーザー入力で評価するとパフォーマンスが低下することがわかりました。
追加のユーザーシミュレートされたノイズの多いセル選択を使用した微調整体制を提案します。
提案された体制で微調整されたモデルは、ユーザーのノイズの多いテスト ケースで 4.85 BLEU ポイント、クリーンなテスト ケースで 1.4 ポイントを獲得します。
ToTTo データセットで同等の最先端のパフォーマンスを達成します。
要約(オリジナル)
In this work we study user controlled table-to-text generation where users explore the content in a table by selecting cells and reading a natural language description thereof automatically produce by a natural language generator. Such generation models usually learn from carefully selected cell combinations (clean cell selections); however, in practice users may select unexpected, redundant, or incoherent cell combinations (noisy cell selections). In experiments, we find that models perform well on test sets coming from the same distribution as the train data but their performance drops when evaluated on realistic noisy user inputs. We propose a fine-tuning regime with additional user-simulated noisy cell selections. Models fine-tuned with the proposed regime gain 4.85 BLEU points on user noisy test cases and 1.4 on clean test cases; and achieve comparable state-of-the-art performance on the ToTTo dataset.
arxiv情報
著者 | Hanxu Hu,Yunqing Liu,Zhongyi Yu,Laura Perez-Beltrachini |
発行日 | 2023-02-20 07:51:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google