Olympus: A Universal Task Router for Computer Vision Tasks

要約

マルチモーダル大規模言語モデル (MLLM) を、さまざまなコンピュータービジョンタスクを処理できる統合フレームワークに変換する新しいアプローチである Olympus を紹介します。
オリンパスはコントローラー MLLM を利用して、画像、ビデオ、3D オブジェクトにわたる 20 以上の特殊なタスクを専用モジュールに委任します。
この命令ベースのルーティングにより、重い生成モデルをトレーニングすることなく、連鎖アクションを通じて複雑なワークフローが可能になります。
オリンパスは既存の MLLM と簡単に統合し、同等のパフォーマンスで機能を拡張します。
実験の結果、オリンパスは 20 のタスクで平均 94.75% のルーティング精度、連鎖アクションシナリオで 91.82% の精度を達成し、さまざまなコンピュータビジョンタスクを解決できるユニバーサルタスクルータとしての有効性を示しました。
プロジェクトページ：https://github.com/yuanze-lin/Olympus_page

要約(オリジナル)

We introduce Olympus, a new approach that transforms Multimodal Large Language Models (MLLMs) into a unified framework capable of handling a wide array of computer vision tasks. Utilizing a controller MLLM, Olympus delegates over 20 specialized tasks across images, videos, and 3D objects to dedicated modules. This instruction-based routing enables complex workflows through chained actions without the need for training heavy generative models. Olympus easily integrates with existing MLLMs, expanding their capabilities with comparable performance. Experimental results demonstrate that Olympus achieves an average routing accuracy of 94.75% across 20 tasks and precision of 91.82% in chained action scenarios, showcasing its effectiveness as a universal task router that can solve a diverse range of computer vision tasks. Project page: https://github.com/yuanze-lin/Olympus_page

arxiv情報

著者	Yuanze Lin,Yunsheng Li,Dongdong Chen,Weijian Xu,Ronald Clark,Philip H. S. Torr
発行日	2024-12-12 18:59:40+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Olympus: A Universal Task Router for Computer Vision Tasks

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー