Beyond Specialization: Assessing the Capabilities of MLLMs in Age and Gender Estimation


マルチモーダル大規模言語モデル (MLLM) は、最近非常に人気が高まっています。
ChatGPT-4V や Gemini などの強力な商用モデル、および LLaVA などのオープンソース モデルは、本質的に汎用モデルであり、コンピューター ビジョンなどのさまざまなタスクを解決するために適用されます。
これらのニューラル ネットワークは、非常に強力な一般知識と推論能力を備えているため、特別に訓練されていないタスクでも機能することが証明されています。
私たちは、年齢と性別の推定という特殊なタスクにおいて、これまでで最も強力な MLLM である ShareGPT4V、ChatGPT、LLaVA-Next の機能を、最先端の特殊モデル MiVOLO を使用して比較しました。
また、MiVOLO も更新され、この記事で詳細と新しい指標が提供されます。
さらに、この特定の課題で最先端の結果を達成することを目指して、この特定のタスクに合わせて ShareGPT4V モデルを微調整するさまざまな方法を試みました。
このようなモデルは、MiVOLO のような特殊なモデルに比べて非常に高価であるため、実稼働環境では実用的ではありませんが、データの注釈などの一部のタスクでは非常に役立つ可能性があります。


Multimodal Large Language Models (MLLMs) have recently gained immense popularity. Powerful commercial models like ChatGPT-4V and Gemini, as well as open-source ones such as LLaVA, are essentially general-purpose models and are applied to solve a wide variety of tasks, including those in computer vision. These neural networks possess such strong general knowledge and reasoning abilities that they have proven capable of working even on tasks for which they were not specifically trained. We compared the capabilities of the most powerful MLLMs to date: ShareGPT4V, ChatGPT, LLaVA-Next in a specialized task of age and gender estimation with our state-of-the-art specialized model, MiVOLO. We also updated MiVOLO and provide details and new metrics in this article. This comparison has yielded some interesting results and insights about the strengths and weaknesses of the participating models. Furthermore, we attempted various ways to fine-tune the ShareGPT4V model for this specific task, aiming to achieve state-of-the-art results in this particular challenge. Although such a model would not be practical in production, as it is incredibly expensive compared to a specialized model like MiVOLO, it could be very useful in some tasks, like data annotation.


著者 Maksim Kuprashevich,Grigorii Alekseenko,Irina Tolstykh
発行日 2025-01-21 14:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.0 パーマリンク