要約
テレビ会議やオンライン講座の長時間の録画・音声を聞いて情報を取得するのは、非常に非効率的です。
ASR システムが録音を長い形式の話し言葉の文書に書き起こした後でも、ASR の書き起こしを読んでも、情報を探す速度が部分的に向上するだけです。
キーフレーズ抽出、トピックのセグメンテーション、要約などのさまざまな NLP アプリケーションが、重要な情報を把握する際のユーザーの効率を大幅に向上させることが観察されています。
会議シナリオは、これらの音声言語処理 (SLP) 機能を展開するための最も価値のあるシナリオの 1 つです。
ただし、これらの SLP タスク用に注釈が付けられた大規模な公開会議データセットがないことが、その進歩を大きく妨げています。
SLP の進歩を促すために、大規模な一般的な会議の理解と生成のベンチマーク (MUG) を確立して、トピックのセグメンテーション、トピックレベルおよびセッションレベルの抽出要約、トピックタイトルの生成など、幅広い SLP タスクのパフォーマンスをベンチマークします。
キーフレーズの抽出、およびアクション アイテムの検出。
MUG ベンチマークを促進するために、包括的な長期形式の SLP 開発のための大規模な会議データセット、AliMeeting4MUG コーパスを構築してリリースします。これは、さまざまなトピックをカバーする 654 の記録された北京語会議セッションで構成され、手動のトランスクリプトに SLP タスクの手動注釈が付けられています。
会議の記録の。
私たちの知る限りでは、AliMeeting4MUG コーパスはこれまでのところ最大規模の会議コーパスであり、ほとんどの SLP タスクを容易にします。
この論文では、このコーパス、SLP タスクと評価方法、ベースライン システムとそのパフォーマンスの詳細な紹介を提供します。
要約(オリジナル)
Listening to long video/audio recordings from video conferencing and online courses for acquiring information is extremely inefficient. Even after ASR systems transcribe recordings into long-form spoken language documents, reading ASR transcripts only partly speeds up seeking information. It has been observed that a range of NLP applications, such as keyphrase extraction, topic segmentation, and summarization, significantly improve users’ efficiency in grasping important information. The meeting scenario is among the most valuable scenarios for deploying these spoken language processing (SLP) capabilities. However, the lack of large-scale public meeting datasets annotated for these SLP tasks severely hinders their advancement. To prompt SLP advancement, we establish a large-scale general Meeting Understanding and Generation Benchmark (MUG) to benchmark the performance of a wide range of SLP tasks, including topic segmentation, topic-level and session-level extractive summarization and topic title generation, keyphrase extraction, and action item detection. To facilitate the MUG benchmark, we construct and release a large-scale meeting dataset for comprehensive long-form SLP development, the AliMeeting4MUG Corpus, which consists of 654 recorded Mandarin meeting sessions with diverse topic coverage, with manual annotations for SLP tasks on manual transcripts of meeting recordings. To the best of our knowledge, the AliMeeting4MUG Corpus is so far the largest meeting corpus in scale and facilitates most SLP tasks. In this paper, we provide a detailed introduction of this corpus, SLP tasks and evaluation methods, baseline systems and their performance.
arxiv情報
著者 | Qinglin Zhang,Chong Deng,Jiaqing Liu,Hai Yu,Qian Chen,Wen Wang,Zhijie Yan,Jinglin Liu,Yi Ren,Zhou Zhao |
発行日 | 2023-03-24 11:52:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google