Synthetic Data Augmentation for Cross-domain Implicit Discourse Relation Recognition

要約

暗黙の談話関係認識(IDRR) – 2つのテキストスパン間の暗黙のコヒーレンス関係を識別するタスク – には、深い意味的な理解が必要です。
最近の研究では、ゼロまたは少数のショットアプローチが監視されたモデルに大幅に遅れていることが示されていますが、LLMSは合成データ増強に役立つ可能性があります。ここでは、LLMは指定されたコヒーレンス関係に続いて2番目の引数を生成します。
このアプローチをクロスドメインの設定で適用し、無効なターゲットドメインデータを使用して談話の継続を生成し、ソースドメインラベルのデータでトレーニングされたベースモデルを適応させました。
大規模なテストセットで実施された評価により、アプローチのさまざまなバリエーションが大幅な改善をもたらさないことが明らかになりました。
LLMSは、IDRRの有用なサンプルを生成できないことが多く、IDRRモデルを評価する際に統計的有意性と比較可能性の両方を考慮することの重要性を強調することが多いと結論付けています。

要約(オリジナル)

Implicit discourse relation recognition (IDRR) — the task of identifying the implicit coherence relation between two text spans — requires deep semantic understanding. Recent studies have shown that zero- or few-shot approaches significantly lag behind supervised models, but LLMs may be useful for synthetic data augmentation, where LLMs generate a second argument following a specified coherence relation. We applied this approach in a cross-domain setting, generating discourse continuations using unlabelled target-domain data to adapt a base model which was trained on source-domain labelled data. Evaluations conducted on a large-scale test set revealed that different variations of the approach did not result in any significant improvements. We conclude that LLMs often fail to generate useful samples for IDRR, and emphasize the importance of considering both statistical significance and comparability when evaluating IDRR models.

arxiv情報

著者 Frances Yung,Varsha Suresh,Zaynab Reza,Mansoor Ahmad,Vera Demberg
発行日 2025-03-26 14:41:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク