要約
専門家レベルのドメインの知識と意図的な認知を要求する全プロセスのOracle Bone Inscriptions(OBI)処理タスクで、大規模なマルチモーダルモデル(LMM)を体系的に評価するために作られたホリスティックベンチマークであるOBI-Benchを紹介します。
オビベンチには、5,523の細心の注意を払って収集された多様な画像が含まれており、5つの重要なドメインの問題をカバーしています。
これらの画像には、数世紀にわたり、考古学的な発見と長年にわたる最前線の学者による研究に至ります。これは、オリジナルのOracle Bone、Inked Tubbing、Oracle Bone Fragments、クロップドシングルキャラクター、手作業のキャラクターなど、発掘から合成までの多段階フォントの外観を含みます。
既存のベンチマークとは異なり、オビベンチは、OBI固有の知識を持つ高度な視覚的認識と推論に焦点を当てており、LMMに専門家が直面している人に似たタスクを実行するように挑戦します。
6つの独自のLMMと17のオープンソースLMMの評価は、オビベンチがもたらす実質的な課題と要求を強調しています。
GPT-4O、Gemini 1.5 Pro、およびQwen-VL-Maxの最新バージョンでさえ、いくつかの細かい知覚タスクにおいて、まだ公共レベルの人間とはほど遠いものです。
しかし、彼らは解読のタスクで訓練されていない人間に匹敵するレベルで機能し、新しい解釈的視点を提供し、創造的な推測を生み出す際の顕著な能力を示しています。
Obi-Benchがコミュニティを促進し、古代の言語研究に向けてドメイン固有のマルチモーダル基礎モデルを開発し、LMMのこれらの未開発の可能性を発見および強化するために深く掘り下げることを願っています。
要約(オリジナル)
We introduce OBI-Bench, a holistic benchmark crafted to systematically evaluate large multi-modal models (LMMs) on whole-process oracle bone inscriptions (OBI) processing tasks demanding expert-level domain knowledge and deliberate cognition. OBI-Bench includes 5,523 meticulously collected diverse-sourced images, covering five key domain problems: recognition, rejoining, classification, retrieval, and deciphering. These images span centuries of archaeological findings and years of research by front-line scholars, comprising multi-stage font appearances from excavation to synthesis, such as original oracle bone, inked rubbings, oracle bone fragments, cropped single characters, and handprinted characters. Unlike existing benchmarks, OBI-Bench focuses on advanced visual perception and reasoning with OBI-specific knowledge, challenging LMMs to perform tasks akin to those faced by experts. The evaluation of 6 proprietary LMMs as well as 17 open-source LMMs highlights the substantial challenges and demands posed by OBI-Bench. Even the latest versions of GPT-4o, Gemini 1.5 Pro, and Qwen-VL-Max are still far from public-level humans in some fine-grained perception tasks. However, they perform at a level comparable to untrained humans in deciphering tasks, indicating remarkable capabilities in offering new interpretative perspectives and generating creative guesses. We hope OBI-Bench can facilitate the community to develop domain-specific multi-modal foundation models towards ancient language research and delve deeper to discover and enhance these untapped potentials of LMMs.
arxiv情報
著者 | Zijian Chen,Tingzhu Chen,Wenjun Zhang,Guangtao Zhai |
発行日 | 2025-02-11 14:59:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google