要約
さまざまなNLPタスクでうまく機能する可能性のあるトレーニングモデルには、大量のデータが必要であり、これはANAPHORAやConference Resolutionなどの微妙なタスクでより明確になります。
手動の金注釈付きデータを作成することの法外なコストに対処するために、このペーパーでは、CoreFerferentialentallyアノテーションを使用してデータセットを自動的に作成する2つの方法を調査します。
既存のデータセットからの直接変換、および新しい言語や目に見えない言語を処理できる多言語モデルを使用して解析します。
この論文では、これらの2つの面での現在の進捗状況、および現在直面している努力の課題と、これらの課題を克服するための私たちのアプローチについて詳しく説明しています。
要約(オリジナル)
Training models that can perform well on various NLP tasks require large amounts of data, and this becomes more apparent with nuanced tasks such as anaphora and conference resolution. To combat the prohibitive costs of creating manual gold annotated data, this paper explores two methods to automatically create datasets with coreferential annotations; direct conversion from existing datasets, and parsing using multilingual models capable of handling new and unseen languages. The paper details the current progress on those two fronts, as well as the challenges the efforts currently face, and our approach to overcoming these challenges.
arxiv情報
著者 | Dima Taji,Daniel Zeman |
発行日 | 2025-03-12 14:15:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google