Unsupervised Dialogue Topic Segmentation in Hyperdimensional Space

要約

教師なし対話トピック セグメンテーションに対する超次元コンピューティング (HDC) アプローチである HyperSeg を紹介します。
HDC は、非常に高次元 (通常は 10,000 以上) でランダムに描画されたベクトルの確率的直交性を利用するベクトル シンボリック アーキテクチャのクラスです。
HDC は、多くの無関係なベクトルを低コストで初期化することで、豊富なトークン表現を生成します。
これは、下流のトランスクリプト理解タスクのためのリソースに制約のある前処理ステップとして機能することが多いトピックのセグメンテーションで特に有益です。
HyperSeg は、ベースラインにグラウンド トゥルースへの部分的なアクセスが与えられている場合でも、5 つのセグメンテーション ベンチマークのうち 4 つで現在の最先端のものを上回り、平均で 10 倍高速です。
HyperSeg がダウンストリームの要約精度も向上することを示します。
HyperSeg を使用して、主要な言語タスクにおける HDC の実行可能性を実証します。
私たちは HyperSeg をオープンソースにして、教師なしトピック セグメンテーションのための強力なベースラインを提供します。

要約(オリジナル)

We present HyperSeg, a hyperdimensional computing (HDC) approach to unsupervised dialogue topic segmentation. HDC is a class of vector symbolic architectures that leverages the probabilistic orthogonality of randomly drawn vectors at extremely high dimensions (typically over 10,000). HDC generates rich token representations through its low-cost initialization of many unrelated vectors. This is especially beneficial in topic segmentation, which often operates as a resource-constrained pre-processing step for downstream transcript understanding tasks. HyperSeg outperforms the current state-of-the-art in 4 out of 5 segmentation benchmarks — even when baselines are given partial access to the ground truth — and is 10 times faster on average. We show that HyperSeg also improves downstream summarization accuracy. With HyperSeg, we demonstrate the viability of HDC in a major language task. We open-source HyperSeg to provide a strong baseline for unsupervised topic segmentation.

arxiv情報

著者 Seongmin Park,Jinkyu Seo,Jihwa Lee
発行日 2023-08-21 04:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク