要約
マルチモーダル大規模言語モデル (MLLM) を、さまざまなコンピューター ビジョン タスクを処理できる統合フレームワークに変換する新しいアプローチである Olympus を紹介します。
オリンパスはコントローラー MLLM を利用して、画像、ビデオ、3D オブジェクトにわたる 20 以上の特殊なタスクを専用モジュールに委任します。
この命令ベースのルーティングにより、重い生成モデルをトレーニングすることなく、連鎖アクションを通じて複雑なワークフローが可能になります。
オリンパスは既存の MLLM と簡単に統合し、同等のパフォーマンスで機能を拡張します。
実験の結果、オリンパスは 20 のタスクで平均 94.75% のルーティング精度、連鎖アクション シナリオで 91.82% の精度を達成し、さまざまなコンピュータ ビジョン タスクを解決できるユニバーサル タスク ルータとしての有効性を示しました。
プロジェクトページ:http://yuanze-lin.me/Olympus_page/
要約(オリジナル)
We introduce Olympus, a new approach that transforms Multimodal Large Language Models (MLLMs) into a unified framework capable of handling a wide array of computer vision tasks. Utilizing a controller MLLM, Olympus delegates over 20 specialized tasks across images, videos, and 3D objects to dedicated modules. This instruction-based routing enables complex workflows through chained actions without the need for training heavy generative models. Olympus easily integrates with existing MLLMs, expanding their capabilities with comparable performance. Experimental results demonstrate that Olympus achieves an average routing accuracy of 94.75% across 20 tasks and precision of 91.82% in chained action scenarios, showcasing its effectiveness as a universal task router that can solve a diverse range of computer vision tasks. Project page: http://yuanze-lin.me/Olympus_page/
arxiv情報
著者 | Yuanze Lin,Yunsheng Li,Dongdong Chen,Weijian Xu,Ronald Clark,Philip H. S. Torr |
発行日 | 2024-12-13 12:27:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google