OmniBench: Towards The Future of Universal Omni-Language Models

要約

マルチモーダル大手言語モデル(MLLMS)の最近の進歩は、複数のモダリティの統合に焦点を当てていますが、異なる入力間で同時に処理および理由を処理する能力は未定です。
Omnibenchを紹介します。これは、視覚、音響、およびテキストの入力を同時に認識、解釈、および推論するモデルの能力を評価するために設計された新しいベンチマークです。
Omni-Language Models(OLMS)のようなトライモーダル処理が可能な言語モデルを定義します。
Omnibenchは、すべてのモダリティにわたって統合された理解を必要とする高品質の人間の注釈を備えています。
私たちの評価は、次のことを明らかにしています。i)オープンソースOLMSは、トライモーダルの文脈における指導のフォローと推論に大きな制限を示しています。
ii)ほとんどのベースラインモデルは、画像/オーディオ入力に代わるテキストの代替品があっても、パフォーマンスが低い(約50%の精度)。
これらの制限に対処するために、OLMSのトレーニング用の96Kサンプル命令チューニングデータセットであるOmniinstructを開発します。
OLMのパフォーマンスを向上させるために、より堅牢なトライモーダル統合技術とトレーニング戦略を開発することを提唱しています。
コードとデータは、レポ(https://github.com/multimodal-art-projection/omnibench)にあります。

要約(オリジナル)

Recent advancements in multimodal large language models (MLLMs) have focused on integrating multiple modalities, yet their ability to simultaneously process and reason across different inputs remains underexplored. We introduce OmniBench, a novel benchmark designed to evaluate models’ ability to recognize, interpret, and reason across visual, acoustic, and textual inputs simultaneously. We define language models capable of such tri-modal processing as omni-language models (OLMs). OmniBench features high-quality human annotations that require integrated understanding across all modalities. Our evaluation reveals that: i) open-source OLMs show significant limitations in instruction-following and reasoning in tri-modal contexts; and ii) most baseline models perform poorly (around 50% accuracy) even with textual alternatives to image/audio inputs. To address these limitations, we develop OmniInstruct, an 96K-sample instruction tuning dataset for training OLMs. We advocate for developing more robust tri-modal integration techniques and training strategies to enhance OLM performance. Codes and data could be found at our repo (https://github.com/multimodal-art-projection/OmniBench).

arxiv情報

著者 Yizhi Li,Ge Zhang,Yinghao Ma,Ruibin Yuan,Kang Zhu,Hangyu Guo,Yiming Liang,Jiaheng Liu,Zekun Wang,Jian Yang,Siwei Wu,Xingwei Qu,Jinjie Shi,Xinyue Zhang,Zhenzhu Yang,Xiangzhou Wang,Zhaoxiang Zhang,Zachary Liu,Emmanouil Benetos,Wenhao Huang,Chenghua Lin
発行日 2025-03-27 16:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク