要約
複数著者の文体検出のタスクは、特定のテキスト文書内で文体が変更された箇所を見つけることを目的としています。
このタスクを、2 つの連続する段落がペアになる自然言語推論問題として定式化します。
私たちのアプローチは、タスクの入力トークンを切り捨てながら、段落間の遷移に焦点を当てています。
バックボーン モデルとして、トレーニング中にウォームアップ フェーズを備えたさまざまな Transformer ベースのエンコーダーを使用します。
実験では、ベースラインおよび他の提案されたモデル バージョンを上回るパフォーマンスを示すモデル バージョンを提出します。
簡単なセットアップと中程度のセットアップについては、ウォームアップ トレーニングを行った DeBERTa に基づくトランジションに焦点を当てた自然言語推論を提出し、ハード セットアップについてはトランジションなしの同じモデルを提出します。
要約(オリジナル)
The task of multi-author writing style detection aims at finding any positions of writing style change in a given text document. We formulate the task as a natural language inference problem where two consecutive paragraphs are paired. Our approach focuses on transitions between paragraphs while truncating input tokens for the task. As backbone models, we employ different Transformer-based encoders with warmup phase during training. We submit the model version that outperforms baselines and other proposed model versions in our experiments. For the easy and medium setups, we submit transition-focused natural language inference based on DeBERTa with warmup training, and the same model without transition for the hard setup.
arxiv情報
著者 | Izzet Emre Kucukkaya,Umitcan Sahin,Cagri Toraman |
発行日 | 2023-07-27 14:56:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google