Salient Span Masking for Temporal Understanding

要約

Salient Span Masking (SSM) は、クローズドブックの質問応答のパフォーマンスを向上させるための効果的な戦略であることが示されています。
SSM は、単一のエンティティまたは日付範囲をマスクする追加の教師なしトレーニング センテンスを作成することで、一般的なマスクされた言語モデルの事前トレーニングを拡張し、事実情報をオーバーサンプリングします。
このパラダイムの成功にもかかわらず、スパンの種類とサンプリング戦略は比較的恣意的であり、他のタスクについては広く研究されていません。
したがって、さまざまな時間的表現の適切な表現を学習することが重要な時間的タスクの観点からSSMを調査します。
そのために、Temporal Span Masking (TSM) 中間トレーニングを導入します。
まず、SSM だけで 3 つの一時的なタスクのダウンストリーム パフォーマンスが平均で 1 倍向上することがわかりました。
+5.8ポイント。
さらに、TSM タスクを追加することで、さらなる改善 (平均 +0.29 ポイント) を達成することができます。
これらは、ターゲット タスクで報告された新しい最良の結果で構成されます。
私たちの分析は、SSM の有効性は、マスクの選択ではなく、トレーニング データで選択された文に由来することを示唆しています。エンティティを含む文には、多くの場合、一時的な表現も含まれています。
それにもかかわらず、TSM のターゲット スパンを追加することで、特にゼロ ショット コンテキストでパフォーマンスを向上させることができます。

要約(オリジナル)

Salient Span Masking (SSM) has shown itself to be an effective strategy to improve closed-book question answering performance. SSM extends general masked language model pretraining by creating additional unsupervised training sentences that mask a single entity or date span, thus oversampling factual information. Despite the success of this paradigm, the span types and sampling strategies are relatively arbitrary and not widely studied for other tasks. Thus, we investigate SSM from the perspective of temporal tasks, where learning a good representation of various temporal expressions is important. To that end, we introduce Temporal Span Masking (TSM) intermediate training. First, we find that SSM alone improves the downstream performance on three temporal tasks by an avg. +5.8 points. Further, we are able to achieve additional improvements (avg. +0.29 points) by adding the TSM task. These comprise the new best reported results on the targeted tasks. Our analysis suggests that the effectiveness of SSM stems from the sentences chosen in the training data rather than the mask choice: sentences with entities frequently also contain temporal expressions. Nonetheless, the additional targeted spans of TSM can still improve performance, especially in a zero-shot context.

arxiv情報

著者 Jeremy R. Cole,Aditi Chaudhary,Bhuwan Dhingra,Partha Talukdar
発行日 2023-03-22 18:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク