Generic Temporal Reasoning with Differential Analysis and Explanation

要約

時間的推論は、イベントのペアの時間的関係を予測するタスクです。
時間的推論モデルはドメイン内ベンチマークでは適度にパフォーマンスを発揮できますが、既存のデータセットの制限により、これらのシステムの一般化可能性についてはほとんどわかりません。
この研究では、時間微分分析でこのギャップを埋める TODAY という新しいタスクを導入します。このタスクは、名前が示すように、システムが段階的な変更の影響を正しく理解できるかどうかを評価します。
具体的には、TODAY では特定のイベントのペアにわずかなコンテキストの変化が導入されており、システムはこの微妙なコンテキストの変化が関連する時間的関係の分布にどのような影響を与えるかを伝えるように求められます。
学習を容易にするために、TODAY では人間による説明にも注釈が付けられます。
私たちは、GPT-3.5 を含む既存のモデルが今日ではランダムな推測に陥っていることを示し、これらのモデルが一時的な予測について適切な推論ではなく、偽の情報に大きく依存していることを示唆しています。
一方で、TODAY の監視スタイルと説明の注釈は共同学習に使用でき、モデルがトレーニング中により適切な信号を使用するようになり、その結果、いくつかのベンチマーク全体で優れたパフォーマンスを発揮できることを示します。
TODAY は、GPT-3.5 などのノイズ源からの付随的な監視を求めるモデルのトレーニングにも使用できるため、一般的な時間推論システムの目標にさらに近づくことができます。

要約(オリジナル)

Temporal reasoning is the task of predicting temporal relations of event pairs. While temporal reasoning models can perform reasonably well on in-domain benchmarks, we have little idea of these systems’ generalizability due to existing datasets’ limitations. In this work, we introduce a novel task named TODAY that bridges this gap with temporal differential analysis, which as the name suggests, evaluates whether systems can correctly understand the effect of incremental changes. Specifically, TODAY introduces slight contextual changes for given event pairs, and systems are asked to tell how this subtle contextual change would affect relevant temporal relation distributions. To facilitate learning, TODAY also annotates human explanations. We show that existing models, including GPT-3.5, drop to random guessing on TODAY, suggesting that they heavily rely on spurious information rather than proper reasoning for temporal predictions. On the other hand, we show that TODAY’s supervision style and explanation annotations can be used in joint learning, encouraging models to use more appropriate signals during training and thus outperform across several benchmarks. TODAY can also be used to train models to solicit incidental supervision from noisy sources such as GPT-3.5, thus moving us more toward the goal of generic temporal reasoning systems.

arxiv情報

著者 Yu Feng,Ben Zhou,Haoyu Wang,Helen Jin,Dan Roth
発行日 2023-05-31 17:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク