The System Description of dun_oscar team for The ICPR MSR Challenge

要約

この論文では、dun_oscar チームが ICPR MSR チャレンジに提出したシステムを紹介します。
task1 ~ task3 の 3 つのサブシステムがそれぞれ記述されています。
タスク 1 では、OCR モデル、テキスト トラッカー、および字幕と非字幕を区別するための NLP 分類器を含むビジュアル システムを開発します。
task2 では、18 層の AM と 4 グラムの LM を含む ASR システムを使用します。
ラベルのないデータに対する半教師あり学習も重要です。
タスク 3 では、ASR システムを使用してビジュアル システムを改善します。一部の誤った字幕は、融合モジュールによって修正できます。

要約(オリジナル)

This paper introduces the system submitted by dun_oscar team for the ICPR MSR Challenge. Three subsystems for task1-task3 are descripted respectively. In task1, we develop a visual system which includes a OCR model, a text tracker, and a NLP classifier for distinguishing subtitles and non-subtitles. In task2, we employ an ASR system which includes an AM with 18 layers and a 4-gram LM. Semi-supervised learning on unlabeled data is also vital. In task3, we employ the ASR system to improve the visual system, some false subtitles can be corrected by a fusion module.

arxiv情報

著者 Binbin Du,Rui Deng,Yingxin Zhang
発行日 2023-03-13 05:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク