Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens

要約

この論文では、強力かつ効率的な Image-to-Speech キャプション (Im2Sp) モデルを構築する方法を提案します。
この目的を達成するために、まず、画像理解と言語モデリングに関する豊富な知識を、大規模な事前トレーニング済み視覚言語モデルから Im2Sp にインポートします。
提案された Im2Sp の出力を離散化音声単位、つまり自己教師あり音声モデルの量子化音声特徴として設定します。
音声単位には主に言語情報が含まれており、音声の他の特徴は抑制されています。
これにより、事前トレーニングされた視覚言語モデルの言語モデリング機能を Im2Sp の音声言語モデリングに組み込むことができます。
ビジョン言語の事前トレーニング戦略により、広く使用されている 2 つのベンチマーク データベース、COCO と Flickr8k で新しい最先端の Im2Sp パフォーマンスを設定しました。
次に、Im2Sp モデルの効率をさらに向上させます。
音声単位の場合と同様に、元の画像を画像単位に変換します。画像単位は、生の画像のベクトル量子化を通じて導出されます。
これらの画像ユニットを使用すると、画像データを保存するために必要なデータ ストレージを、ビット換算で元の画像データと比較してわずか 0.8% まで大幅に削減できます。
デモページ: https://ms-dot-k.github.io/Image-to-Speech-Captioning。

要約(オリジナル)

In this paper, we propose methods to build a powerful and efficient Image-to-Speech captioning (Im2Sp) model. To this end, we start with importing the rich knowledge related to image comprehension and language modeling from a large-scale pre-trained vision-language model into Im2Sp. We set the output of the proposed Im2Sp as discretized speech units, i.e., the quantized speech features of a self-supervised speech model. The speech units mainly contain linguistic information while suppressing other characteristics of speech. This allows us to incorporate the language modeling capability of the pre-trained vision-language model into the spoken language modeling of Im2Sp. With the vision-language pre-training strategy, we set new state-of-the-art Im2Sp performances on two widely used benchmark databases, COCO and Flickr8k. Then, we further improve the efficiency of the Im2Sp model. Similar to the speech unit case, we convert the original image into image units, which are derived through vector quantization of the raw image. With these image units, we can drastically reduce the required data storage for saving image data to just 0.8% when compared to the original image data in terms of bits. Demo page: https://ms-dot-k.github.io/Image-to-Speech-Captioning.

arxiv情報

著者 Minsu Kim,Jeongsoo Choi,Soumi Maiti,Jeong Hun Yeo,Shinji Watanabe,Yong Man Ro
発行日 2023-09-15 16:48:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, eess.AS, eess.IV パーマリンク