要約
言い換えの生成と検出における現在のアプローチは、言語の複雑な言語特性を無視し、単一の一般的な類似性スコアに大きく依存しています。
この論文では、言い換えタイプ、つまり特定のテキスト位置における特定の言語的摂動を考慮することによって、この欠点に対処する 2 つの新しいタスクを紹介します。
これらのタスクを「言い換えタイプ生成」および「言い換えタイプ検出」と名付けます。
私たちの結果は、現在の技術がバイナリ分類シナリオ、つまり言い換えかどうかのシナリオではうまく機能する一方で、きめの細かい言い換えタイプを含めることが重大な課題を引き起こすことを示唆しています。
ほとんどのアプローチは、一般的な意味的に類似したコンテンツの生成と検出には優れていますが、操作する固有の言語変数を理解することができません。
言い換えタイプの生成と識別についてトレーニングされたモデルは、言い換えタイプを使用しないタスクでも改善を示しています。
さらに、これらのモデルをスケーリングすると、言い換えタイプを理解する能力がさらに向上します。
私たちは、言い換えタイプが、将来、言い換えモデルを開発し、タスクを解決するための新しいパラダイムを解き放つことができると信じています。
要約(オリジナル)
Current approaches in paraphrase generation and detection heavily rely on a single general similarity score, ignoring the intricate linguistic properties of language. This paper introduces two new tasks to address this shortcoming by considering paraphrase types – specific linguistic perturbations at particular text positions. We name these tasks Paraphrase Type Generation and Paraphrase Type Detection. Our results suggest that while current techniques perform well in a binary classification scenario, i.e., paraphrased or not, the inclusion of fine-grained paraphrase types poses a significant challenge. While most approaches are good at generating and detecting general semantic similar content, they fail to understand the intrinsic linguistic variables they manipulate. Models trained in generating and identifying paraphrase types also show improvements in tasks without them. In addition, scaling these models further improves their ability to understand paraphrase types. We believe paraphrase types can unlock a new paradigm for developing paraphrase models and solving tasks in the future.
arxiv情報
著者 | Jan Philip Wahle,Bela Gipp,Terry Ruas |
発行日 | 2024-07-01 12:32:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google