要約
PaliGemma 2は、Gemma 2言語モデルファミリーをベースにしたPaliGemmaオープンビジョン言語モデル(VLM)のアップグレード版です。PaliGemmaでも使用されているSigLIP-So400mビジョンエンコーダと、2Bモデルから27BモデルまでのGemma 2モデル全体を組み合わせています。これらのモデルを3つの解像度(224px、448px、896px)で多段階に学習させ、微調整による移行のための幅広い知識を身につけさせました。その結果、異なるモデルサイズと解像度をカバーする基本モデルファミリーができ、伝達パフォーマンスに影響を与える要因(学習率など)を調査し、タスクのタイプ、モデルサイズ、解像度の相互作用を分析することができる。さらに、PaliGemmaの範囲を超えて、表構造認識、分子構造認識、楽譜認識などの様々なOCR関連タスクや、PaliGemma 2が最先端の結果を得ている長時間のきめ細かなキャプション付けやレントゲン写真のレポート生成など、転送タスクの数と幅を増やした。
要約(オリジナル)
PaliGemma 2 is an upgrade of the PaliGemma open Vision-Language Model (VLM) based on the Gemma 2 family of language models. We combine the SigLIP-So400m vision encoder that was also used by PaliGemma with the whole range of Gemma 2 models, from the 2B one all the way up to the 27B model. We train these models at three resolutions (224px, 448px, and 896px) in multiple stages to equip them with broad knowledge for transfer via fine-tuning. The resulting family of base models covering different model sizes and resolutions allows us to investigate factors impacting transfer performance (such as learning rate) and to analyze the interplay between the type of task, model size, and resolution. We further increase the number and breadth of transfer tasks beyond the scope of PaliGemma including different OCR-related tasks such as table structure recognition, molecular structure recognition, music score recognition, as well as long fine-grained captioning and radiography report generation, on which PaliGemma 2 obtains state-of-the-art results.
arxiv情報
著者 | Andreas Steiner,André Susano Pinto,Michael Tschannen,Daniel Keysers,Xiao Wang,Yonatan Bitton,Alexey Gritsenko,Matthias Minderer,Anthony Sherbondy,Shangbang Long,Siyang Qin,Reeve Ingle,Emanuele Bugliarello,Sahar Kazemzadeh,Thomas Mesnard,Ibrahim Alabdulmohsin,Lucas Beyer,Xiaohua Zhai |
発行日 | 2024-12-04 18:50:42+00:00 |
arxivサイト | arxiv_id(pdf) |