Near, far: Patch-ordering enhances vision foundation models’ scene understanding

要約

NECO:PATCH Neighbor Consecencyを紹介します。これは、学生と教師モデル全体でパッチレベルの最近隣接する一貫性を実施する新しい自己監視のトレーニング損失です。
バイナリ学習信号のみ、つまり「引き付け」と「反発」のみを生成する対照的なアプローチと比較して、このアプローチは、参照パッチと比較して空間的に密な特徴をソートするというより微細な学習信号から利益を得ます。
私たちの方法は、DinoV2-registersなどの前提条件の表現の上に適用される微分可能な並べ替えを活用して、学習信号をブートストラップし、さらに改善します。
この密集後の予定は、単一のGPUで19時間しか必要としないにもかかわらず、さまざまなモデルとデータセットで優れたパフォーマンスにつながります。
この方法は、高品質の高密度機能エンコーダーを生成し、ADE20KおよびPascal VOCのノンパラメトリックインコンテキストセマンティックセグメンテーション、 +7.2%および + +など、 +5.5%および +6%などのいくつかの新しい最先端の結果を確立します。
5.7%Coco-Thingsの線形セグメンテーション評価と、SPAIR-71Kのマルチビューの一貫性の3D理解の頑丈な評価と改善、1.5%以上。

要約(オリジナル)

We introduce NeCo: Patch Neighbor Consistency, a novel self-supervised training loss that enforces patch-level nearest neighbor consistency across a student and teacher model. Compared to contrastive approaches that only yield binary learning signals, i.e., ‘attract’ and ‘repel’, this approach benefits from the more fine-grained learning signal of sorting spatially dense features relative to reference patches. Our method leverages differentiable sorting applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. This method generates high-quality dense feature encoders and establishes several new state-of-the-art results such as +5.5% and +6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff and improvements in the 3D understanding of multi-view consistency on SPair-71k, by more than 1.5%.

arxiv情報

著者 Valentinos Pariza,Mohammadreza Salehi,Gertjan Burghouts,Francesco Locatello,Yuki M. Asano
発行日 2025-02-11 14:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Near, far: Patch-ordering enhances vision foundation models’ scene understanding はコメントを受け付けていません

Efficient Image-to-Image Diffusion Classifier for Adversarial Robustness

要約

拡散モデル(DM)は、DMベースの防御方法が敵対的な訓練なしで優れた防御能力を達成できる敵対的な堅牢性の分野で大きな可能性を実証しています。
ただし、大規模な事前訓練を受けたDMSの使用により、それらはすべて膨大な計算コストを必要としているため、強力な攻撃の下で完全な評価を実施し、従来のCNNベースの方法と比較することが困難です。
DMSのネットワークサイズとタイムステップを単純に縮小するだけで、以前のフレームワークを無効にする画像生成品質を大幅に害する可能性があります。
この問題を軽減するために、拡散フレームワークを高品質の画像の生成から識別可能な画像ラベルの予測に再設計します。
具体的には、イメージ翻訳フレームワークを使用して、入力サンプルから設計された直交画像ラベルまでの多くのマッピングを学習します。
このフレームワークに基づいて、剪定されたU-NET構造と拡散タイムステップを減らした効率的な画像間拡散分類器を導入します。
フレームワークに加えて、DMSの最適化目標を再設計して、画像分類のターゲットに適合します。ここでは、新しい分類損失がDMベースの画像翻訳フレームワークに組み込まれ、生成されたラベルを他のクラスのラベルと区別します。
人気のあるベンチマークに対するさまざまな攻撃の下で、提案された分類器の十分な評価を実施します。
広範な実験は、DMベースおよびCNNベースの方法よりも計算コストが少なく、私たちの方法がより良い敵対的堅牢性を達成することを示しています。
このコードは、https://github.com/hfmei/idcで入手できます

要約(オリジナル)

Diffusion models (DMs) have demonstrated great potential in the field of adversarial robustness, where DM-based defense methods can achieve superior defense capability without adversarial training. However, they all require huge computational costs due to the usage of large-scale pre-trained DMs, making it difficult to conduct full evaluation under strong attacks and compare with traditional CNN-based methods. Simply reducing the network size and timesteps in DMs could significantly harm the image generation quality, which invalidates previous frameworks. To alleviate this issue, we redesign the diffusion framework from generating high-quality images to predicting distinguishable image labels. Specifically, we employ an image translation framework to learn many-to-one mapping from input samples to designed orthogonal image labels. Based on this framework, we introduce an efficient Image-to-Image diffusion classifier with a pruned U-Net structure and reduced diffusion timesteps. Besides the framework, we redesign the optimization objective of DMs to fit the target of image classification, where a new classification loss is incorporated in the DM-based image translation framework to distinguish the generated label from those of other classes. We conduct sufficient evaluations of the proposed classifier under various attacks on popular benchmarks. Extensive experiments show that our method achieves better adversarial robustness with fewer computational costs than DM-based and CNN-based methods. The code is available at https://github.com/hfmei/IDC

arxiv情報

著者 Hefei Mei,Minjing Dong,Chang Xu
発行日 2025-02-11 14:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficient Image-to-Image Diffusion Classifier for Adversarial Robustness はコメントを受け付けていません

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

要約

拡散トランス(DIT)は、高品質のビデオのモデリングと生成において顕著なパフォーマンスを示しています。
ただし、3D完全な注意メカニズムの二次計算の複雑さは、特に高解像度と長いビデオのスケーリングビデオDITトレーニングに大きな課題を示します。
大きな入力サイズを処理するため。
このペーパーでは、トレーニングプロセス全体で固有の動的な注意スパース性を活用することにより、ビデオDITのトレーニングを加速および拡大するように設計された新しいフレームワークであるDSVを紹介します。
DSVは、スパースパターンを悪用する2段階のトレーニングアルゴリズムを採用しており、効率的でカスタマイズされたカーネルによってサポートされている重要な要素に焦点を当てています。
新しいスパースの次元に対応するために、ハイブリッドスパースアウェアコンテキストの並列性を開発し、注意ヘッドとブロック全体でスパースの不均一性に対処することにより、大きな入力に効果的にスケーリングし、最適化されたスパースの計算と通信をもたらします。
広範な評価は、DSVが品質の低下をほとんど伴わずにトレーニングスループットで最大3.02倍の増加を達成することを示しています。

要約(オリジナル)

Diffusion Transformers (DiTs) have shown remarkable performance in modeling and generating high-quality videos. However, the quadratic computational complexity of 3D full attention mechanism presents significant challenges in scaling video DiT training, especially for high-definition and lengthy videos, where attention can dominate up to 95% of the end-to-end time and necessitate specialized communication paradigms to handle large input sizes. This paper introduces DSV, a novel framework designed to accelerate and scale the training of video DiTs by leveraging the inherent dynamic attention sparsity throughout the training process. DSV employs a two-stage training algorithm that exploits sparsity patterns, focusing on critical elements supported by efficient, tailored kernels. To accommodate the new sparsity dimension, we develop a hybrid sparsity-aware context parallelism that effectively scales to large inputs by addressing the heterogeneity of sparsity across attention heads and blocks, resulting in optimized sparse computation and communication. Extensive evaluations demonstrate that DSV achieves up to 3.02x gain in training throughput with nearly no quality degradation.

arxiv情報

著者 Xin Tan,Yuetao Chen,Yimin Jiang,Xing Chen,Kun Yan,Nan Duan,Yibo Zhu,Daxin Jiang,Hong Xu
発行日 2025-02-11 14:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC | DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training はコメントを受け付けていません

YOLO Network For Defect Detection In Optical lenses

要約

大量生産された光レンズは、散乱特性を変え、品質基準を妥協する欠陥を示すことがよくあります。
通常、手動検査は欠陥を検出するために採用されますが、精度が低く、エラー率が高く、スケーラビリティが限られているため、推奨されません。
これらの課題に対処するために、この研究はYolov8ディープラーニングモデルに基づいた自動欠陥検出システムを提示します。
モデルをトレーニングするために、欠陥領域とレンズ領域が注釈付けされた光レンズのカスタムデータセットが作成されました。
この研究で得られた実験結果は、システムを使用して光レンズの欠陥を効率的かつ正確に検出できることを明らかにしています。
提案されたシステムは、光学レンズ製造における信頼性が高くスケーラブルな欠陥検出を可能にすることにより、リアルタイムの産業環境で品質管理プロセスを強化することができます。

要約(オリジナル)

Mass-produced optical lenses often exhibit defects that alter their scattering properties and compromise quality standards. Manual inspection is usually adopted to detect defects, but it is not recommended due to low accuracy, high error rate and limited scalability. To address these challenges, this study presents an automated defect detection system based on the YOLOv8 deep learning model. A custom dataset of optical lenses, annotated with defect and lens regions, was created to train the model. Experimental results obtained in this study reveal that the system can be used to efficiently and accurately detect defects in optical lenses. The proposed system can be utilized in real-time industrial environments to enhance quality control processes by enabling reliable and scalable defect detection in optical lens manufacturing.

arxiv情報

著者 Habib Yaseen
発行日 2025-02-11 14:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLO Network For Defect Detection In Optical lenses はコメントを受け付けていません

PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning

要約

将来のシーンの表現を予測することは、ロボットが環境を理解して対話できるようにするための重要なタスクです。
ただし、ほとんどの既存の方法は、正確なアクション注釈を備えたビデオシーケンスとシミュレーションに依存しており、利用可能な大量の非標識ビデオデータを活用する能力を制限しています。
この課題に対処するために、オブジェクト中心のビデオ予測モデルであるPlayslotを提案します。これは、オブジェクト表現と潜在的なアクションを非標識ビデオシーケンスから推進します。
次に、これらの表現を使用して、将来のオブジェクト状態とビデオフレームを予測します。
PlaySlotを使用すると、ユーザーが提供する、または学習したアクションポリシーによって生成されるビデオダイナミクスから推測できる潜在的なアクションに条件付けられた複数の可能な先物を生成できます。
私たちの結果は、プレイスロットが、さまざまな環境でビデオ予測のために確率的およびオブジェクト中心の両方のベースラインよりも優れていることを示しています。
さらに、推測された潜在アクションを使用して、ラベルのないビデオデモンストレーションからロボットの動作をサンプル効率的に学習できることを示しています。
ビデオとコードは、https://play-slot.github.io/playslot/で入手できます。

要約(オリジナル)

Predicting future scene representations is a crucial task for enabling robots to understand and interact with the environment. However, most existing methods rely on video sequences and simulations with precise action annotations, limiting their ability to leverage the large amount of available unlabeled video data. To address this challenge, we propose PlaySlot, an object-centric video prediction model that infers object representations and latent actions from unlabeled video sequences. It then uses these representations to forecast future object states and video frames. PlaySlot allows to generate multiple possible futures conditioned on latent actions, which can be inferred from video dynamics, provided by a user, or generated by a learned action policy, thus enabling versatile and interpretable world modeling. Our results show that PlaySlot outperforms both stochastic and object-centric baselines for video prediction across different environments. Furthermore, we show that our inferred latent actions can be used to learn robot behaviors sample-efficiently from unlabeled video demonstrations. Videos and code are available at https://play-slot.github.io/PlaySlot/.

arxiv情報

著者 Angel Villar-Corrales,Sven Behnke
発行日 2025-02-11 14:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning はコメントを受け付けていません

Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

要約

ゼロショット異常検出(ZSAD)は、新興広告パラダイムです。
モデルをトレーニングするために多数の通常のサンプルを必要とする従来の監視なしの広告設定とは異なり、ZSADはデータ制限の実世界のシナリオを処理するためにより実用的です。
最近、マルチモーダル大手言語モデル(MLLM)は、さまざまなビジョンタスクで革新的な推論能力を示しています。
ただし、対応するデータセットとベンチマークがないため、画像の異常の理由は露出度の低いままです。
AD&Reasoningの研究を容易にするために、最初の視覚命令チューニングデータセット、Anomaly-Instruct-125K、および評価ベンチマークであるVisa-D&Rを確立します。
ベンチマークを使用した調査を通じて、GPT-4oのような現在のMLLMは、画像の細粒の異常の詳細を正確に検出して記述できないことを明らかにします。
これに対処するために、ZSADおよび推論の最初の専門のビジュアルアシスタントであるAnomaly-onevision(Anomaly-ov)を提案します。
目視検査における人間の行動に触発されたAnomaly-ovは、異常な視覚トークンを適応的に選択し、強調するために、Look-Twice Featureマッチング(LTFM)メカニズムを活用します。
広範な実験は、異常が検出と推論の両方において、高度なジェネラリストモデルよりも大幅な改善を達成することを示しています。
医療および3D ADへの拡張は、将来の研究のために提供されます。
プロジェクトページへのリンク:https://xujiacong.github.io/anomaly-ov/

要約(オリジナル)

Zero-Shot Anomaly Detection (ZSAD) is an emerging AD paradigm. Unlike the traditional unsupervised AD setting that requires a large number of normal samples to train a model, ZSAD is more practical for handling data-restricted real-world scenarios. Recently, Multimodal Large Language Models (MLLMs) have shown revolutionary reasoning capabilities in various vision tasks. However, the reasoning of image abnormalities remains underexplored due to the lack of corresponding datasets and benchmarks. To facilitate research in AD & reasoning, we establish the first visual instruction tuning dataset, Anomaly-Instruct-125k, and the evaluation benchmark, VisA-D&R. Through investigation with our benchmark, we reveal that current MLLMs like GPT-4o cannot accurately detect and describe fine-grained anomalous details in images. To address this, we propose Anomaly-OneVision (Anomaly-OV), the first specialist visual assistant for ZSAD and reasoning. Inspired by human behavior in visual inspection, Anomaly-OV leverages a Look-Twice Feature Matching (LTFM) mechanism to adaptively select and emphasize abnormal visual tokens. Extensive experiments demonstrate that Anomaly-OV achieves significant improvements over advanced generalist models in both detection and reasoning. Extensions to medical and 3D AD are provided for future study. The link to our project page: https://xujiacong.github.io/Anomaly-OV/

arxiv情報

著者 Jiacong Xu,Shao-Yuan Lo,Bardia Safaei,Vishal M. Patel,Isht Dwivedi
発行日 2025-02-11 14:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models はコメントを受け付けていません

An Improved Optimal Proximal Gradient Algorithm for Non-Blind Image Deblurring

要約

画像の脱生は、画像処理の中心的な研究分野であり、画像の品質を向上させ、多様なアプリケーション全体でより明確な視覚表現を促進する上で重要です。
このペーパーでは、既知のぼやけたカーネルを仮定して、画像が脱毛する最適化の問題に取り組んでいます。
最適な勾配法と重みマトリックスに基づいて、非盲目の画像脱bluring問題に効率的に対処するための最適な近位勾配アルゴリズム(IOPTISTA)を導入します。
2つの正規化ケース、つまり$ l_1 $ normと総変動基準に基づいて、提案されたアルゴリズムのパフォーマンスを評価するために数値実験を実行します。
結果は、我々のアルゴリズムが既存の方法と比較して強化されたPSNR値とSSIM値、および許容度の低下をもたらすことを示しています。

要約(オリジナル)

Image deblurring remains a central research area within image processing, critical for its role in enhancing image quality and facilitating clearer visual representations across diverse applications. This paper tackles the optimization problem of image deblurring, assuming a known blurring kernel. We introduce an improved optimal proximal gradient algorithm (IOptISTA), which builds upon the optimal gradient method and a weighting matrix, to efficiently address the non-blind image deblurring problem. Based on two regularization cases, namely the $l_1$ norm and total variation norm, we perform numerical experiments to assess the performance of our proposed algorithm. The results indicate that our algorithm yields enhanced PSNR and SSIM values, as well as a reduced tolerance, compared to existing methods.

arxiv情報

著者 Qingsong Wang,Shengze Xu,Xiaojiao Tong,Tieyong Zeng
発行日 2025-02-11 14:52:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, math.OC | An Improved Optimal Proximal Gradient Algorithm for Non-Blind Image Deblurring はコメントを受け付けていません

Generalized Least Squares Kernelized Tensor Factorization

要約

不足しているエントリを備えた多次元テンソル構造データを完成させることは、不完全または破損したデータセットを含む多くの実際のアプリケーションにとって基本的なタスクです。
空間的または時間的な副情報を持つデータの場合、滑らかさの制約を備えた低ランク因子化モデルが強力なパフォーマンスを実証しています。
グローバルおよび長距離の相関をキャプチャするのに効果的ですが、これらのモデルは、データの短期的で高周波の変動をキャプチャするのに苦労しています。
この制限に対処するために、テンソル完了のために一般化された最小二乗核化テンソル因数分解(GLSKF)フレームワークを提案します。
GLSKFは、滑らかに制約された低ランク因数分解を局所的に相関する残留プロセスと統合します。
結果として生じる添加剤構造により、グローバル依存関係とローカルバリエーションの両方の効果的な特性評価が可能になります。
具体的には、共分散の規範を定義して、グローバルな低ランク因数分解における因子マトリックスの滑らかさを実施し、構造化された共分散/カーネル関数を使用してローカルプロセスをモデル化します。
モデル推定のために、各サブ問題に閉じた型ソリューションを備えた交互の最小二乗(ALS)手順を開発します。
GLSKFは、共分散のKronecker構造を保持する投影行列に基づいてゼロパッディングおよびスライス操作を使用し、共役勾配(CG)メソッドを介して効率的な計算を促進します。
提案されたフレームワークは、多様なタスク全体の4つの実際のデータセットで評価されます。
実験結果は、GLSKFが優れたパフォーマンスとスケーラビリティを達成し、多次元テンソル完了の新しいソリューションとして確立することを示しています。

要約(オリジナル)

Completing multidimensional tensor-structured data with missing entries is a fundamental task for many real-world applications involving incomplete or corrupted datasets. For data with spatial or temporal side information, low-rank factorization models with smoothness constraints have demonstrated strong performance. Although effective at capturing global and long-range correlations, these models often struggle to capture short-scale, high-frequency variations in the data. To address this limitation, we propose the Generalized Least Squares Kernelized Tensor Factorization (GLSKF) framework for tensor completion. GLSKF integrates smoothness-constrained low-rank factorization with a locally correlated residual process; the resulting additive structure enables effective characterization of both global dependencies and local variations. Specifically, we define the covariance norm to enforce the smoothness of factor matrices in the global low-rank factorization, and use structured covariance/kernel functions to model the local processes. For model estimation, we develop an alternating least squares (ALS) procedure with closed-form solutions for each subproblem. GLSKF utilizes zero-padding and slicing operations based on projection matrices which preserve the Kronecker structure of covariances, facilitating efficient computations through the conjugate gradient (CG) method. The proposed framework is evaluated on four real-world datasets across diverse tasks. Experimental results demonstrate that GLSKF achieves superior performance and scalability, establishing it as a novel solution for multidimensional tensor completion.

arxiv情報

著者 Mengying Lei,Lijun Sun
発行日 2025-02-11 14:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | Generalized Least Squares Kernelized Tensor Factorization はコメントを受け付けていません

CoS: Chain-of-Shot Prompting for Long Video Understanding

要約

マルチモーダルの大手言語モデル(MLLM)は、過度の視覚トークンが必要なため、長いビデオと格闘しています。
これらのトークンはMLLMのコンテキスト長を大幅に超えており、その結果、冗長なタスクに関係のあるショットによって満たされます。
ショットを選択する方法は未解決の重要な問題です。まばらなサンプリングのリスク重要な詳細がありませんが、徹底的なサンプリングは無関係なコンテンツでモデルを圧倒し、ビデオの誤解につながります。
この問題を解決するために、チェーンオブショットプロンプト(cos)を提案します。
重要なアイデアは、ショットの選択をテスト時間の視覚プロンプトの最適化としてフレーム化し、ショットタスクアライメントを最適化することにより、ビデオ理解セマンティックタスクに適応するショットを選択することです。
COSには2つの重要な部分があります。(1)擬似時間的接地を実行するバイナリビデオ要約メカニズム、タスク関連のショットを識別するためのバイナリコーディングを発見し、(2)ペアに合わせてバイナリコーディングを展開するビデオ共同再季節モジュール(学習モジュール
並べる)タスク関連のポジティブなショットは、無関係なネガティブショットを備えています。
最適化されたショットの選択を元のビデオに埋め込み、長いビデオ理解を最適化するための関連するコンテキストに焦点を当てます。
3つのベースラインと5つのデータセットにわたる実験は、COSの有効性と適応性を示しています。
https://lwpyh.github.io/cosで指定されたコード。

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) struggle with long videos due to the need for excessive visual tokens. These tokens exceed massively the context length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to select shots is an unsolved critical problem: sparse sampling risks missing key details, while exhaustive sampling overwhelms the model with irrelevant content, leading to video misunderstanding. To solve this problem, we propose Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as test-time visual prompt optimisation, choosing shots adaptive to video understanding semantic task by optimising shots-task alignment. CoS has two key parts: (1) a binary video summary mechanism that performs pseudo temporal grounding, discovering a binary coding to identify task-relevant shots, and (2) a video co-reasoning module that deploys the binary coding to pair (learning to align) task-relevant positive shots with irrelevant negative shots. It embeds the optimised shot selections into the original video, facilitating a focus on relevant context to optimize long video understanding. Experiments across three baselines and five datasets demonstrate the effectiveness and adaptability of CoS. Code given in https://lwpyh.github.io/CoS.

arxiv情報

著者 Jian Hu,Zixu Cheng,Chenyang Si,Wei Li,Shaogang Gong
発行日 2025-02-11 14:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoS: Chain-of-Shot Prompting for Long Video Understanding はコメントを受け付けていません

OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?

要約

専門家レベルのドメインの知識と意図的な認知を要求する全プロセスのOracle Bone Inscriptions(OBI)処理タスクで、大規模なマルチモーダルモデル(LMM)を体系的に評価するために作られたホリスティックベンチマークであるOBI-Benchを紹介します。
オビベンチには、5,523の細心の注意を払って収集された多様な画像が含まれており、5つの重要なドメインの問題をカバーしています。
これらの画像には、数世紀にわたり、考古学的な発見と長年にわたる最前線の学者による研究に至ります。これは、オリジナルのOracle Bone、Inked Tubbing、Oracle Bone Fragments、クロップドシングルキャラクター、手作業のキャラクターなど、発掘から合成までの多段階フォントの外観を含みます。
既存のベンチマークとは異なり、オビベンチは、OBI固有の知識を持つ高度な視覚的認識と推論に焦点を当てており、LMMに専門家が直面している人に似たタスクを実行するように挑戦します。
6つの独自のLMMと17のオープンソースLMMの評価は、オビベンチがもたらす実質的な課題と要求を強調しています。
GPT-4O、Gemini 1.5 Pro、およびQwen-VL-Maxの最新バージョンでさえ、いくつかの細かい知覚タスクにおいて、まだ公共レベルの人間とはほど遠いものです。
しかし、彼らは解読のタスクで訓練されていない人間に匹敵するレベルで機能し、新しい解釈的視点を提供し、創造的な推測を生み出す際の顕著な能力を示しています。
Obi-Benchがコミュニティを促進し、古代の言語研究に向けてドメイン固有のマルチモーダル基礎モデルを開発し、LMMのこれらの未開発の可能性を発見および強化するために深く掘り下げることを願っています。

要約(オリジナル)

We introduce OBI-Bench, a holistic benchmark crafted to systematically evaluate large multi-modal models (LMMs) on whole-process oracle bone inscriptions (OBI) processing tasks demanding expert-level domain knowledge and deliberate cognition. OBI-Bench includes 5,523 meticulously collected diverse-sourced images, covering five key domain problems: recognition, rejoining, classification, retrieval, and deciphering. These images span centuries of archaeological findings and years of research by front-line scholars, comprising multi-stage font appearances from excavation to synthesis, such as original oracle bone, inked rubbings, oracle bone fragments, cropped single characters, and handprinted characters. Unlike existing benchmarks, OBI-Bench focuses on advanced visual perception and reasoning with OBI-specific knowledge, challenging LMMs to perform tasks akin to those faced by experts. The evaluation of 6 proprietary LMMs as well as 17 open-source LMMs highlights the substantial challenges and demands posed by OBI-Bench. Even the latest versions of GPT-4o, Gemini 1.5 Pro, and Qwen-VL-Max are still far from public-level humans in some fine-grained perception tasks. However, they perform at a level comparable to untrained humans in deciphering tasks, indicating remarkable capabilities in offering new interpretative perspectives and generating creative guesses. We hope OBI-Bench can facilitate the community to develop domain-specific multi-modal foundation models towards ancient language research and delve deeper to discover and enhance these untapped potentials of LMMs.

arxiv情報

著者 Zijian Chen,Tingzhu Chen,Wenjun Zhang,Guangtao Zhai
発行日 2025-02-11 14:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones? はコメントを受け付けていません