要約
ビジュアル データは、わずか数ピクセルの小さなアイコンから数時間にわたる長いビデオに至るまで、さまざまな形式で提供されます。
既存のマルチモーダル LLM は通常、これらの多様なビジュアル入力をビジュアル エンコーダの固定解像度に標準化し、LLM に対して同様の数のトークンを生成します。
このアプローチは、マルチモーダルな理解には最適ではなく、長短のビジュアル コンテンツを含む入力を処理するには非効率的です。
この問題を解決するために、画像、ビデオ、およびマルチビュー 3D シーンの時空間理解のための統合マルチモーダル アーキテクチャである Oryx を提案します。
Oryx は、次の 2 つの核となるイノベーションを通じて、任意の空間サイズと時間長を持つ視覚入力をシームレスかつ効率的に処理するオンデマンド ソリューションを提供します。1) 任意の解像度の画像を LLM に適した視覚表現にエンコードできる事前トレーニング済みの OryxViT モデル。
2) リクエストに応じてビジュアル トークンの 1 倍から 16 倍の圧縮をサポートする動的圧縮モジュール。
これらの設計機能により、Oryx は、ビデオなどの非常に長い視覚コンテキストを低解像度かつ高圧縮で対応しながら、ネイティブ解像度および非圧縮による文書理解などのタスクで高い認識精度を維持できます。
アーキテクチャの改善を超えて、強化されたデータキュレーションと、長いコンテキストの検索と空間認識データに関する専門的なトレーニングにより、Oryx は画像、ビデオ、および 3D マルチモーダル理解における強力な機能を同時に達成することができます。
私たちの作品は https://github.com/Oryx-mllm/Oryx でオープンソース化されています。
要約(オリジナル)
Visual data comes in various forms, ranging from small icons of just a few pixels to long videos spanning hours. Existing multi-modal LLMs usually standardize these diverse visual inputs to a fixed resolution for visual encoders and yield similar numbers of tokens for LLMs. This approach is non-optimal for multimodal understanding and inefficient for processing inputs with long and short visual contents. To solve the problem, we propose Oryx, a unified multimodal architecture for the spatial-temporal understanding of images, videos, and multi-view 3D scenes. Oryx offers an on-demand solution to seamlessly and efficiently process visual inputs with arbitrary spatial sizes and temporal lengths through two core innovations: 1) a pre-trained OryxViT model that can encode images at any resolution into LLM-friendly visual representations; 2) a dynamic compressor module that supports 1x to 16x compression on visual tokens by request. These design features enable Oryx to accommodate extremely long visual contexts, such as videos, with lower resolution and high compression while maintaining high recognition precision for tasks like document understanding with native resolution and no compression. Beyond the architectural improvements, enhanced data curation and specialized training on long-context retrieval and spatial-aware data help Oryx achieve strong capabilities in image, video, and 3D multimodal understanding simultaneously. Our work is open-sourced at https://github.com/Oryx-mllm/Oryx.
arxiv情報
著者 | Zuyan Liu,Yuhao Dong,Ziwei Liu,Winston Hu,Jiwen Lu,Yongming Rao |
発行日 | 2024-10-22 16:17:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google