要約
テキストと画像の両方を認識して理解するように設計された大規模ビジョン言語モデル (LVLM) のセットである Qwen-VL シリーズを紹介します。
Qwen-VL と Qwen-VL-Chat で構成されるこれらのモデルは、画像キャプション、質問応答、視覚的ローカリゼーション、柔軟なインタラクションなどのタスクで優れたパフォーマンスを発揮します。
評価は、ゼロショットキャプション、視覚的または文書による視覚的な質問応答、グラウンディングなど、幅広いタスクを対象としています。
Qwen-VL が既存の LVLM よりも優れていることを実証します。
私たちはそのアーキテクチャ、トレーニング、機能、パフォーマンスを紹介し、マルチモーダル人工知能の進歩への貢献を強調します。
コード、デモ、モデルは https://github.com/QwenLM/Qwen-VL で入手できます。
要約(オリジナル)
We introduce the Qwen-VL series, a set of large-scale vision-language models (LVLMs) designed to perceive and understand both text and images. Comprising Qwen-VL and Qwen-VL-Chat, these models exhibit remarkable performance in tasks like image captioning, question answering, visual localization, and flexible interaction. The evaluation covers a wide range of tasks including zero-shot captioning, visual or document visual question answering, and grounding. We demonstrate the Qwen-VL outperforms existing LVLMs. We present their architecture, training, capabilities, and performance, highlighting their contributions to advancing multimodal artificial intelligence. Code, demo and models are available at https://github.com/QwenLM/Qwen-VL.
arxiv情報
著者 | Jinze Bai,Shuai Bai,Shusheng Yang,Shijie Wang,Sinan Tan,Peng Wang,Junyang Lin,Chang Zhou,Jingren Zhou |
発行日 | 2023-09-14 17:08:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google