要約
ポッドキャスト エピソードなどの長いトーク オーディオ コンテンツのリスナーは、全体の構造を理解し、関連するセクションを見つけるのが難しいと感じることがよくあります。
実際的な解決策は、エピソードを章、つまりタイトルとタイムスタンプでラベル付けされた意味的に一貫したセグメントに分割することです。
現在、Spotify のプラットフォーム上のほとんどのエピソードにはクリエイターが提供するチャプターが欠けているため、チャプターの作成を自動化することが不可欠です。
ポッドキャスト エピソードのチャプタ化を拡大するには、特有の課題が伴います。
まず、エピソードは書かれたテキストよりも構造化されていない傾向があり、微妙な変化を伴う自発的な議論が特徴です。
第 2 に、トランスクリプトは通常、平均約 16,000 トークンと長く、コンテキストを維持できる効率的な処理が必要です。
これらの課題に対処するために、会話データをセグメント化するための微調整されたエンコーダー デコーダー トランスフォーマーである PODTILE を導入します。
このモデルは、入力トランスクリプトの章遷移とタイトルを同時に生成します。
コンテキストを保持するために、各入力テキストはエピソードのタイトル、説明、前の章のタイトルなどのグローバル コンテキストで強化されます。
当社の本質的な評価では、PODTILE は最も強力なベースラインと比較して ROUGE スコアで 11% の改善を達成しました。
さらに、エピソード コンテンツをナビゲートするリスナーにとって、自動生成されたチャプターの実際的な利点についての洞察も提供します。
私たちの調査結果は、自動生成されたチャプターが、あまり人気のないポッドキャストに参加するための便利なツールとして機能することを示しています。
最後に、章タイトルを使用すると、検索タスクにおけるスパース検索の有効性が向上するという経験的証拠を示します。
要約(オリジナル)
Listeners of long-form talk-audio content, such as podcast episodes, often find it challenging to understand the overall structure and locate relevant sections. A practical solution is to divide episodes into chapters–semantically coherent segments labeled with titles and timestamps. Since most episodes on our platform at Spotify currently lack creator-provided chapters, automating the creation of chapters is essential. Scaling the chapterization of podcast episodes presents unique challenges. First, episodes tend to be less structured than written texts, featuring spontaneous discussions with nuanced transitions. Second, the transcripts are usually lengthy, averaging about 16,000 tokens, which necessitates efficient processing that can preserve context. To address these challenges, we introduce PODTILE, a fine-tuned encoder-decoder transformer to segment conversational data. The model simultaneously generates chapter transitions and titles for the input transcript. To preserve context, each input text is augmented with global context, including the episode’s title, description, and previous chapter titles. In our intrinsic evaluation, PODTILE achieved an 11% improvement in ROUGE score over the strongest baseline. Additionally, we provide insights into the practical benefits of auto-generated chapters for listeners navigating episode content. Our findings indicate that auto-generated chapters serve as a useful tool for engaging with less popular podcasts. Finally, we present empirical evidence that using chapter titles can enhance effectiveness of sparse retrieval in search tasks.
arxiv情報
著者 | Azin Ghazimatin,Ekaterina Garmash,Gustavo Penha,Kristen Sheets,Martin Achenbach,Oguz Semerci,Remi Galvez,Marcus Tannenberg,Sahitya Mantravadi,Divya Narayanan,Ofeliya Kalaydzhyan,Douglas Cole,Ben Carterette,Ann Clifton,Paul N. Bennett,Claudia Hauff,Mounia Lalmas |
発行日 | 2024-10-21 16:17:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google