Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

要約

テキストを文に分割することは、多くの NLP システムにおいて初期かつ重要な役割を果たします。
これは通常、句読点などの語彙的特徴に依存するルールベースの方法または統計的方法を使用することによって実現されます。
最近の研究の中には、もはや句読点のみに依存していないものもありますが、(i) 句読点の欠落に対する堅牢性、(ii) 新しいドメインへの効果的な適応性、および (iii) 高効率のすべてを達成する従来の方法は存在しないことがわかりました。
この問題を解決するために、新しいモデルである Segment any Text (SaT) を導入します。
堅牢性を強化するために、句読点への依存を確実に減らす新しい事前トレーニング スキームを提案します。
適応性に対処するために、パラメーター効率の高い微調整の追加段階を導入し、歌詞や法的文書の詩など、異なる領域で最先端のパフォーマンスを確立します。
その過程で、以前の最先端技術に比べて速度が 3 倍向上し、遠い将来のコンテキストへの誤った依存を解決する結果となるアーキテクチャの変更を導入します。
最後に、文セグメント化されたデータの多様な多言語混合を微調整したモデルのバリアントを導入します。これは、既存のセグメント化ツールのドロップイン置換および拡張機能として機能します。
全体として、私たちの貢献は、あらゆるテキストをセグメント化するための普遍的なアプローチを提供します。
私たちの方法は、特にテキストのフォーマットが不十分な実際に関連する状況において、さまざまなドメインと言語にわたる 8 つのコーパスにわたって、強力な LLM を含むすべてのベースラインを上回ります。
ドキュメントを含むモデルとコードは、MIT ライセンスに基づいて https://huggingface.co/segment-any-text で入手できます。

要約(オリジナル)

Segmenting text into sentences plays an early and crucial role in many NLP systems. This is commonly achieved by using rule-based or statistical methods relying on lexical features such as punctuation. Although some recent works no longer exclusively rely on punctuation, we find that no prior method achieves all of (i) robustness to missing punctuation, (ii) effective adaptability to new domains, and (iii) high efficiency. We introduce a new model – Segment any Text (SaT) – to solve this problem. To enhance robustness, we propose a new pretraining scheme that ensures less reliance on punctuation. To address adaptability, we introduce an extra stage of parameter-efficient fine-tuning, establishing state-of-the-art performance in distinct domains such as verses from lyrics and legal documents. Along the way, we introduce architectural modifications that result in a threefold gain in speed over the previous state of the art and solve spurious reliance on context far in the future. Finally, we introduce a variant of our model with fine-tuning on a diverse, multilingual mixture of sentence-segmented data, acting as a drop-in replacement and enhancement for existing segmentation tools. Overall, our contributions provide a universal approach for segmenting any text. Our method outperforms all baselines – including strong LLMs – across 8 corpora spanning diverse domains and languages, especially in practically relevant situations where text is poorly formatted. Our models and code, including documentation, are available at https://huggingface.co/segment-any-text under the MIT license.

arxiv情報

著者 Markus Frohmann,Igor Sterner,Ivan Vulić,Benjamin Minixhofer,Markus Schedl
発行日 2024-06-24 14:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク