From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions

要約

テキストのセグメンテーションは自然言語処理の基本的なタスクであり、文書が連続したセクションに分割されます。
ただし、この分野の先行研究は、規模が小さいか、合成されたものであるか、または適切に構造化された文書のみを含むデータセットが限られているという制約がありました。
このペーパーでは、本質的に構造化されておらず、話題性と構造性の両方が多様である音声コンテンツに焦点を当てた新しいベンチマーク YTSeg を導入することで、これらの制限に対処します。
この作業の一環として、最先端のベースラインを上回る効率的な階層セグメンテーション モデル MiniSeg を導入します。
最後に、テキストのセグメンテーションの概念を、非構造化コンテンツのセグメンテーション、意味のあるセグメント タイトルの生成、およびモデルの潜在的なリアルタイム アプリケーションを含む、より実用的な「スマート チャプタリング」タスクに拡張します。

要約(オリジナル)

Text segmentation is a fundamental task in natural language processing, where documents are split into contiguous sections. However, prior research in this area has been constrained by limited datasets, which are either small in scale, synthesized, or only contain well-structured documents. In this paper, we address these limitations by introducing a novel benchmark YTSeg focusing on spoken content that is inherently more unstructured and both topically and structurally diverse. As part of this work, we introduce an efficient hierarchical segmentation model MiniSeg, that outperforms state-of-the-art baselines. Lastly, we expand the notion of text segmentation to a more practical ‘smart chaptering’ task that involves the segmentation of unstructured content, the generation of meaningful segment titles, and a potential real-time application of the models.

arxiv情報

著者 Fabian Retkowski,Alexander Waibel
発行日 2024-02-27 15:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク