要約
この論文では、dun_oscar チームが ICPR MSR チャレンジに提出したシステムを紹介します。
task1 ~ task3 の 3 つのサブシステムがそれぞれ記述されています。
タスク 1 では、OCR モデル、テキスト トラッカー、および字幕と非字幕を区別するための NLP 分類器を含むビジュアル システムを開発します。
task2 では、18 層の AM と 4 グラムの LM を含む ASR システムを使用します。
ラベルのないデータに対する半教師あり学習も重要です。
タスク 3 では、ASR システムを使用してビジュアル システムを改善します。一部の誤った字幕は、融合モジュールによって修正できます。
要約(オリジナル)
This paper introduces the system submitted by dun_oscar team for the ICPR MSR Challenge. Three subsystems for task1-task3 are descripted respectively. In task1, we develop a visual system which includes a OCR model, a text tracker, and a NLP classifier for distinguishing subtitles and non-subtitles. In task2, we employ an ASR system which includes an AM with 18 layers and a 4-gram LM. Semi-supervised learning on unlabeled data is also vital. In task3, we employ the ASR system to improve the visual system, some false subtitles can be corrected by a fusion module.
arxiv情報
著者 | Binbin Du,Rui Deng,Yingxin Zhang |
発行日 | 2023-03-13 05:53:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google