Task Me Anything

要約

大規模なマルチモーダル言語モデル (MLM) のベンチマークは、特定の機能を評価するのではなく、モデルの一般的な機能を同時に評価するようになりました。
その結果、開発者がアプリケーションにどのモデルを使用するかを特定したい場合、ベンチマークの数に圧倒され、どのベンチマークの結果が特定のユースケースを最も反映しているかがわかりません。
このペーパーでは、ユーザーのニーズに合わせたベンチマークを生成するベンチマーク生成エンジン、Task-Me-Anything を紹介します。
Task-Me-Anything は、ビジュアル アセットの拡張可能な分類を維持し、プログラムによって膨大な数のタスク インスタンスを生成できます。
さらに、計算予算内で効率的に MLM パフォーマンスに関するユーザーのクエリにアルゴリズム的に対処します。
これには、113,000 の画像、10,000 のビデオ、2,000 の 3D オブジェクト アセット、365 を超えるオブジェクト カテゴリ、655 の属性、および 335 の関係が含まれています。
MLM の知覚能力の評価に焦点を当てた、7 億 5,000 万の画像/ビデオの質問と回答のペアを生成できます。
Task-Me-Anything は重要な洞察を明らかにします。オープンソースの MLM はオブジェクトと属性の認識に優れていますが、空間的および時間的な理解が不足しています。
各モデルには独自の長所と短所があります。
例外も存在しますが、通常、モデルが大きいほどパフォーマンスが向上します。
GPT4o は、回転/移動する物体の認識と色の区別における課題を示しています。

要約(オリジナル)

Benchmarks for large multimodal language models (MLMs) now serve to simultaneously assess the general capabilities of models instead of evaluating for a specific capability. As a result, when a developer wants to identify which models to use for their application, they are overwhelmed by the number of benchmarks and remain uncertain about which benchmark’s results are most reflective of their specific use case. This paper introduces Task-Me-Anything, a benchmark generation engine which produces a benchmark tailored to a user’s needs. Task-Me-Anything maintains an extendable taxonomy of visual assets and can programmatically generate a vast number of task instances. Additionally, it algorithmically addresses user queries regarding MLM performance efficiently within a computational budget. It contains 113K images, 10K videos, 2K 3D object assets, over 365 object categories, 655 attributes, and 335 relationships. It can generate 750M image/video question-answering pairs, which focus on evaluating MLM perceptual capabilities. Task-Me-Anything reveals critical insights: open-source MLMs excel in object and attribute recognition but lack spatial and temporal understanding; each model exhibits unique strengths and weaknesses; larger models generally perform better, though exceptions exist; and GPT4o demonstrates challenges in recognizing rotating/moving objects and distinguishing colors.

arxiv情報

著者 Jieyu Zhang,Weikai Huang,Zixian Ma,Oscar Michel,Dong He,Tanmay Gupta,Wei-Chiu Ma,Ali Farhadi,Aniruddha Kembhavi,Ranjay Krishna
発行日 2024-06-17 17:32:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク