BP-Seg: A graphical model approach to unsupervised and non-contiguous text segmentation using belief propagation

要約

文の意味的な意味に基づくテキストセグメンテーションは、多くのダウンストリームアプリケーションで幅広いユーティリティを持つ基本的なタスクです。
この論文では、効率的なテキストセグメンテーションのためにBP-SEGという名前のグラフィカルモデルベースの監視学習アプローチを提案します。
私たちの方法は、地元の一貫性を考慮しているだけでなく、隣接する文がしばしばより関連していることが多いという直感を捉えているだけでなく、テキストで遠いが意味的に類似した文を効果的にグループ化します。
これは、慎重に構築されたグラフィカルモデルの信念伝播によって達成されます。
実験結果の実験結果と長型のドキュメントを使用したデータセットの両方で、競合するアプローチと比較して、方法が好意的に機能することが示されています。

要約(オリジナル)

Text segmentation based on the semantic meaning of sentences is a fundamental task with broad utility in many downstream applications. In this paper, we propose a graphical model-based unsupervised learning approach, named BP-Seg for efficient text segmentation. Our method not only considers local coherence, capturing the intuition that adjacent sentences are often more related, but also effectively groups sentences that are distant in the text yet semantically similar. This is achieved through belief propagation on the carefully constructed graphical models. Experimental results on both an illustrative example and a dataset with long-form documents demonstrate that our method performs favorably compared to competing approaches.

arxiv情報

著者 Fengyi Li,Kayhan Behdin,Natesh Pillai,Xiaofeng Wang,Zhipeng Wang,Ercan Yildiz
発行日 2025-05-22 17:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク