Regularized Personalization of Text-to-Image Diffusion Models without Distributional Drift

要約

テキストから画像への拡散モデルを使用したパーソナライズには、少数の画像例を持つ新規被験者に事前に処理されたモデルを適応させることが含まれます。
このタスクは、新しい主題を効果的に学習するだけでなく、幅広いプロンプトで多様で一貫した出力を生成する能力を維持する必要があるため、根本的な課題を提示します。
言い換えれば、パーソナライズを成功させるには、以前に学習された生成機能を忘れることなく、新しい概念を統合する必要があります。
忘れることは、意図しない分布ドリフトを示します。ここでは、モデルの出力分布が元の前提型モデルの分布から逸脱します。
この論文では、この問題の分析を提供し、標準的なトレーニング目標とパーソナライズの目標との間の不一致を特定します。
これに対処するために、前提条件の分布からの逸脱を明示的に制約するリプシッツに縛られた定式化に基づいて、新しいトレーニング目標を提案します。
私たちの方法は、分布ドリフトの改善された制御を提供し、データスカースシナリオでもうまく機能します。
実験結果は、私たちのアプローチが既存のパーソナライズ方法を常に上回っており、より高いCLIP-T、CLIP-I、およびDINOスコアを達成することを示しています。

要約(オリジナル)

Personalization using text-to-image diffusion models involves adapting a pretrained model to novel subjects with only a few image examples. This task presents a fundamental challenge, as the model must not only learn the new subject effectively but also preserve its ability to generate diverse and coherent outputs across a wide range of prompts. In other words, successful personalization requires integrating new concepts without forgetting previously learned generative capabilities. Forgetting denotes unintended distributional drift, where the model’s output distribution deviates from that of the original pretrained model. In this paper, we provide an analysis of this issue and identify a mismatch between standard training objectives and the goals of personalization. To address this, we propose a new training objective based on a Lipschitz-bounded formulation that explicitly constrains deviation from the pretrained distribution. Our method provides improved control over distributional drift and performs well even in data-scarce scenarios. Experimental results demonstrate that our approach consistently outperforms existing personalization methods, achieving higher CLIP-T, CLIP-I, and DINO scores.

arxiv情報

著者 Gihoon Kim,Hyungjin Park,Taesup Kim
発行日 2025-05-27 15:31:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Regularized Personalization of Text-to-Image Diffusion Models without Distributional Drift はコメントを受け付けていません

Beyond Accuracy: Uncovering the Role of Similarity Perception and its Alignment with Semantics in Supervised Learning

要約

類似性は、特に重要なセマンティックな類似性を含むさまざまな形で現れ、例えば、。
共有機能と進化的特性。
また、一定で解釈可能な類似性を備えたWordNetなどの語彙構造を介した計算モデリングにおける実用的な利点も提供します。
ディープビジョンの領域のように、類似性知覚の出現に関する現象にまだ十分な焦点がありません。
Deep Simpality Inspector(DSI)を紹介します。これは、ディープビジョンネットワークが類似性の知覚とセマンティックな類似性との整合性をどのように発展させるかを調べるための体系的なフレームワークです。
我々の実験は、3つのフェーズ(初期類似性の急増、洗練、安定化)でのトレーニング中に、CNNとVITの明確な違いを伴うトレーニング中に、畳み込みニューラルネットワーク(CNNS)と視覚変圧器(VITS)の両方が豊富な類似性認識を発達させることを示しています。
漸進的な間違いの排除に加えて、間違いの洗練現象を観察することができます。

要約(オリジナル)

Similarity manifests in various forms, including semantic similarity that is particularly important, serving as an approximation of human object categorization based on e.g. shared functionalities and evolutionary traits. It also offers practical advantages in computational modeling via lexical structures such as WordNet with constant and interpretable similarity. As in the domain of deep vision, there is still not enough focus on the phenomena regarding the similarity perception emergence. We introduce Deep Similarity Inspector (DSI) — a systematic framework to inspect how deep vision networks develop their similarity perception and its alignment with semantic similarity. Our experiments show that both Convolutional Neural Networks’ (CNNs) and Vision Transformers’ (ViTs) develop a rich similarity perception during training with 3 phases (initial similarity surge, refinement, stabilization), with clear differences between CNNs and ViTs. Besides the gradual mistakes elimination, the mistakes refinement phenomenon can be observed.

arxiv情報

著者 Katarzyna Filus,Mateusz Żarski
発行日 2025-05-27 15:32:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beyond Accuracy: Uncovering the Role of Similarity Perception and its Alignment with Semantics in Supervised Learning はコメントを受け付けていません

Cognitive Disentanglement for Referring Multi-Object Tracking

要約

インテリジェント輸送知覚システムにおけるマルチソース情報融合の重要なアプリケーションとして、マルチオブジェクト追跡(RMOT)を参照するには、言語参照に基づいてビデオシーケンスで特定のオブジェクトをローカライズおよび追跡することが含まれます。
ただし、既存のRMOTアプローチは、言語の説明を全体的な埋め込みとして扱い、言語表現に含まれる豊富なセマンティック情報を視覚的な特徴と効果的に統合するのに苦労することがよくあります。
この制限は、静的オブジェクト属性と空間モーション情報の両方を包括的に理解する必要がある複雑なシーンで特に明らかです。
この論文では、これらの課題に対処するマルチオブジェクト追跡(CDRMT)フレームワークを参照するための認知的解体を提案します。
「What」と「Where」経路を、人間の視覚処理システムからのタスクに適応させます。
具体的には、私たちのフレームワークは、最初にモダリティ固有の特性を維持しながら、クロスモーダル接続を確立します。
次に、言語の説明を解き放ち、それらをオブジェクトクエリに階層的に注入し、オブジェクトの理解を粗から微調整されたセマンティックレベルから洗練します。
最後に、視覚的な特徴に基づいて言語表現を再構築し、追跡されたオブジェクトが参照表現を忠実に反映するようにします。
さまざまなベンチマークデータセットでの広範な実験は、CDRMTが最先端の方法よりも大幅な改善を達成し、リファレンスキッティのHOTAスコアが6.0%、Refer-Kitti-V2で3.2%であることを示しています。
私たちのアプローチは、最先端の最先端をRMOTで進め、同時にマルチソース情報融合に関する新しい洞察を提供します。

要約(オリジナル)

As a significant application of multi-source information fusion in intelligent transportation perception systems, Referring Multi-Object Tracking (RMOT) involves localizing and tracking specific objects in video sequences based on language references. However, existing RMOT approaches often treat language descriptions as holistic embeddings and struggle to effectively integrate the rich semantic information contained in language expressions with visual features. This limitation is especially apparent in complex scenes requiring comprehensive understanding of both static object attributes and spatial motion information. In this paper, we propose a Cognitive Disentanglement for Referring Multi-Object Tracking (CDRMT) framework that addresses these challenges. It adapts the ‘what’ and ‘where’ pathways from the human visual processing system to RMOT tasks. Specifically, our framework first establishes cross-modal connections while preserving modality-specific characteristics. It then disentangles language descriptions and hierarchically injects them into object queries, refining object understanding from coarse to fine-grained semantic levels. Finally, we reconstruct language representations based on visual features, ensuring that tracked objects faithfully reflect the referring expression. Extensive experiments on different benchmark datasets demonstrate that CDRMT achieves substantial improvements over state-of-the-art methods, with average gains of 6.0% in HOTA score on Refer-KITTI and 3.2% on Refer-KITTI-V2. Our approach advances the state-of-the-art in RMOT while simultaneously providing new insights into multi-source information fusion.

arxiv情報

著者 Shaofeng Liang,Runwei Guan,Wangwang Lian,Daizong Liu,Xiaolou Sun,Dongming Wu,Yutao Yue,Weiping Ding,Hui Xiong
発行日 2025-05-27 15:34:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cognitive Disentanglement for Referring Multi-Object Tracking はコメントを受け付けていません

Prostate Cancer Screening with Artificial Intelligence-Enhanced Micro-Ultrasound: A Comparative Study with Traditional Methods

要約

背景と目的:Micro-Ultrasound(Micro-US)は、臨床的に重要な前立腺癌(CSPCA)を検出するためにMRIに匹敵する診断精度を備えた新しい画像診断モダリティです。
Micro-USの人工知能(AI)解釈がPSAおよびデジタル直腸検査(DRE)を使用して臨床スクリーニング方法を上回ることができるかどうかを調査しました。
方法:微小USガイド付き生検を受けた145人の男性を遡及的に研究しました(CSPCAを含む79、なしで66人)。
2D Micro-USスライスから深い画像機能を抽出するために、自己監視された畳み込み自動エンコーダーを使用しました。
ランダムフォレスト分類器は、5倍の交差検証を使用して訓練を受け、スライスレベルでCSPCAを予測しました。
88以上の連続したスライスが陽性と予測された場合、患者はCSPCA陽性として分類されました。
モデルのパフォーマンスは、PSA、DRE、前立腺量、および年齢を使用して分類器と比較されました。
主要な調査結果と制限:AIベースのMicro-USモデルと臨床スクリーニングモデルは、それぞれ0.871と0.753のAurocsを達成しました。
固定しきい値では、Micro-USモデルは92.5%の感度と68.1%の特異性を達成しましたが、臨床モデルは96.2%の感度を示しましたが、特異性は27.3%しかありませんでした。
制限には、遡及的なシングルセンター設計と外部検証の欠如が含まれます。
結論と臨床的意味:AI解釈されたMicro-USは、CSPCA検出の高い感度を維持しながら、特異性を向上させます。
この方法は、不必要な生検を減らし、PSAベースのスクリーニングに代わる低コストの代替として機能する可能性があります。
患者の概要:前立腺微小紫外線画像を分析するAIシステムを開発しました。
攻撃的な癌の検出においてPSAとDREを上回り、不必要な生検を避けるのに役立つ可能性があります。

要約(オリジナル)

Background and objective: Micro-ultrasound (micro-US) is a novel imaging modality with diagnostic accuracy comparable to MRI for detecting clinically significant prostate cancer (csPCa). We investigated whether artificial intelligence (AI) interpretation of micro-US can outperform clinical screening methods using PSA and digital rectal examination (DRE). Methods: We retrospectively studied 145 men who underwent micro-US guided biopsy (79 with csPCa, 66 without). A self-supervised convolutional autoencoder was used to extract deep image features from 2D micro-US slices. Random forest classifiers were trained using five-fold cross-validation to predict csPCa at the slice level. Patients were classified as csPCa-positive if 88 or more consecutive slices were predicted positive. Model performance was compared with a classifier using PSA, DRE, prostate volume, and age. Key findings and limitations: The AI-based micro-US model and clinical screening model achieved AUROCs of 0.871 and 0.753, respectively. At a fixed threshold, the micro-US model achieved 92.5% sensitivity and 68.1% specificity, while the clinical model showed 96.2% sensitivity but only 27.3% specificity. Limitations include a retrospective single-center design and lack of external validation. Conclusions and clinical implications: AI-interpreted micro-US improves specificity while maintaining high sensitivity for csPCa detection. This method may reduce unnecessary biopsies and serve as a low-cost alternative to PSA-based screening. Patient summary: We developed an AI system to analyze prostate micro-ultrasound images. It outperformed PSA and DRE in detecting aggressive cancer and may help avoid unnecessary biopsies.

arxiv情報

著者 Muhammad Imran,Wayne G. Brisbane,Li-Ming Su,Jason P. Joseph,Wei Shao
発行日 2025-05-27 15:47:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Prostate Cancer Screening with Artificial Intelligence-Enhanced Micro-Ultrasound: A Comparative Study with Traditional Methods はコメントを受け付けていません

AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping

要約

正確な作物マッピングは、個々のフィールドテクスチャから景観レベルのコンテキストに至るまでの空間スケールの範囲であり、時間スケールが短期の生物季節学的遷移と完全な成長シーズンダイナミクスの両方をキャプチャする多面的な時空パターンのモデリングに基本的に依存しています。
トランスベースのリモートセンシング基礎モデル(RSFMS)は、統一された時空処理のための生来の能力により、作物マッピングの有望な可能性を提供します。
ただし、現在のRSFMは、作物マッピングの最適ではありません。作物システムのマルチスケールの性質を無視する固定された空間的窓を使用するか、空間パターンのみに焦点を当てることにより一時的な情報を完全に無視します。
これらのギャップを橋渡しするために、農業作物マッピング専用に設計されたマルチソースリモートセンシングファンデーションモデルであるAgrifmを紹介します。
私たちのアプローチは、同時に階層的空間的特徴抽出の必要性を確立することから始まり、時間のダウンサンプリングが空間スケーリング操作と同期される修正ビデオのSWINトランスアーキテクチャの開発につながります。
この変更されたバックボーンにより、長い系列衛星入力の効率的な統一処理が可能になります。
Agrifmは、Modis、Landsat-8/9、Sentinel-2を含む3つの衛星ソースから一時的に豊富なデータストリームを活用し、土地被覆製品が監督する2,500万枚以上の画像サンプルを含むグローバルな代表的なデータセットで事前に訓練されています。
結果のフレームワークには、これらの学習された時空表現を動的に融合し、多様な下流タスクをサポートする汎用性の高いデコーダーアーキテクチャが組み込まれています。
包括的な評価は、すべての下流タスクにわたる従来の深い学習アプローチと最先端の汎用RSFMよりもAgrifmの優れたパフォーマンスを示しています。
コードはurlhttps://github.com/flyakon/agrifmで入手できます。

要約(オリジナル)

Accurate crop mapping fundamentally relies on modeling multi-scale spatiotemporal patterns, where spatial scales range from individual field textures to landscape-level context, and temporal scales capture both short-term phenological transitions and full growing-season dynamics. Transformer-based remote sensing foundation models (RSFMs) offer promising potential for crop mapping due to their innate ability for unified spatiotemporal processing. However, current RSFMs remain suboptimal for crop mapping: they either employ fixed spatiotemporal windows that ignore the multi-scale nature of crop systems or completely disregard temporal information by focusing solely on spatial patterns. To bridge these gaps, we present AgriFM, a multi-source remote sensing foundation model specifically designed for agricultural crop mapping. Our approach begins by establishing the necessity of simultaneous hierarchical spatiotemporal feature extraction, leading to the development of a modified Video Swin Transformer architecture where temporal down-sampling is synchronized with spatial scaling operations. This modified backbone enables efficient unified processing of long time-series satellite inputs. AgriFM leverages temporally rich data streams from three satellite sources including MODIS, Landsat-8/9 and Sentinel-2, and is pre-trained on a global representative dataset comprising over 25 million image samples supervised by land cover products. The resulting framework incorporates a versatile decoder architecture that dynamically fuses these learned spatiotemporal representations, supporting diverse downstream tasks. Comprehensive evaluations demonstrate AgriFM’s superior performance over conventional deep learning approaches and state-of-the-art general-purpose RSFMs across all downstream tasks. Codes will be available at urlhttps://github.com/flyakon/AgriFM.

arxiv情報

著者 Wenyuan Li,Shunlin Liang,Keyan Chen,Yongzhe Chen,Han Ma,Jianglei Xu,Yichuan Ma,Shikang Guan,Husheng Fang,Zhenwei Shi
発行日 2025-05-27 15:50:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping はコメントを受け付けていません

Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

要約

大規模なマルチモダリティモデル(LMM)は、視覚的理解と生成に大きな進歩を遂げていますが、特に複雑な指示に従い、外観の一貫性を維持し、柔軟な入力形式をサポートする際に、一般的な視覚編集で依然として課題に直面しています。
このギャップを研究するために、推論に基づいた視覚編集(Rise)を評価するための最初のベンチマークであるRiseBenchを紹介します。
RiseBenchは、時間、因果関係、空間的、論理的推論の4つの重要な推論カテゴリに焦点を当てています。
各カテゴリの高品質のテストケースをキュレートし、人間の裁判官とLMMとしてのジャッジアプローチの両方で、指導の推論、外観の一貫性、および視覚的妥当性を評価する堅牢な評価フレームワークを提案します。
オープンソースと独自のモデルの両方を含む9つの顕著な視覚編集モデルを評価する実験を実施しました。
評価結果は、現在のモデルが推論ベースの編集タスクにおいて重要な課題に直面していることを示しています。
評価された最も強力なモデルであるGPT-4Oイメージでさえ、わずか28.8%の精度を達成しています。
RiseBenchは、現代の編集モデルの限界を効果的に強調し、貴重な洞察を提供し、推論を意識した視覚編集の分野の潜在的な将来の方向性を示しています。
コードとデータはhttps://github.com/phoenixz810/risebenchでリリースされています。

要約(オリジナル)

Large Multi-modality Models (LMMs) have made significant progress in visual understanding and generation, but they still face challenges in General Visual Editing, particularly in following complex instructions, preserving appearance consistency, and supporting flexible input formats. To study this gap, we introduce RISEBench, the first benchmark for evaluating Reasoning-Informed viSual Editing (RISE). RISEBench focuses on four key reasoning categories: Temporal, Causal, Spatial, and Logical Reasoning. We curate high-quality test cases for each category and propose an robust evaluation framework that assesses Instruction Reasoning, Appearance Consistency, and Visual Plausibility with both human judges and the LMM-as-a-judge approach. We conducted experiments evaluating nine prominent visual editing models, comprising both open-source and proprietary models. The evaluation results demonstrate that current models face significant challenges in reasoning-based editing tasks. Even the most powerful model evaluated, GPT-4o-Image, achieves an accuracy of merely 28.8%. RISEBench effectively highlights the limitations of contemporary editing models, provides valuable insights, and indicates potential future directions for the field of reasoning-aware visual editing. Our code and data have been released at https://github.com/PhoenixZ810/RISEBench.

arxiv情報

著者 Xiangyu Zhao,Peiyuan Zhang,Kexian Tang,Xiaorong Zhu,Hao Li,Wenhao Chai,Zicheng Zhang,Renqiu Xia,Guangtao Zhai,Junchi Yan,Hua Yang,Xue Yang,Haodong Duan
発行日 2025-05-27 15:54:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing はコメントを受け付けていません

YOLO-SPCI: Enhancing Remote Sensing Object Detection via Selective-Perspective-Class Integration

要約

リモートセンシング画像のオブジェクト検出は、極端なスケールの変動、密なオブジェクト分布、および乱雑な背景のために、困難なタスクのままです。
Yolov8などの最近の検出器は有望な結果を示していますが、それらのバックボーンアーキテクチャには、高解像度の航空データのパフォーマンスを制限するマルチスケールの特徴の改良性を導く明示的なメカニズムがありません。
この作業では、特徴表現を改善するための軽量の選択的パース型クラス統合(SPCI)モジュールを導入する注意強化された検出フレームワークであるYolo-SPCIを提案します。
SPCIモジュールは、グローバルフィーチャフローの適応規制のための選択的ストリームゲート(SSG)、コンテキスト認識マルチスケール統合のための視点融合モジュール(PFM)、およびクラス間識別モジュール(CDM)の3つのコンポーネントを統合します。
2つのSPCIブロックをYolov8骨格のP3およびP5段階に埋め込み、元の首と頭との互換性を維持しながら効果的な改良性を可能にしました。
NWPU VHR-10データセットの実験は、ヨロ-SPCIが最先端の検出器と比較して優れた性能を達成することを示しています。

要約(オリジナル)

Object detection in remote sensing imagery remains a challenging task due to extreme scale variation, dense object distributions, and cluttered backgrounds. While recent detectors such as YOLOv8 have shown promising results, their backbone architectures lack explicit mechanisms to guide multi-scale feature refinement, limiting performance on high-resolution aerial data. In this work, we propose YOLO-SPCI, an attention-enhanced detection framework that introduces a lightweight Selective-Perspective-Class Integration (SPCI) module to improve feature representation. The SPCI module integrates three components: a Selective Stream Gate (SSG) for adaptive regulation of global feature flow, a Perspective Fusion Module (PFM) for context-aware multi-scale integration, and a Class Discrimination Module (CDM) to enhance inter-class separability. We embed two SPCI blocks into the P3 and P5 stages of the YOLOv8 backbone, enabling effective refinement while preserving compatibility with the original neck and head. Experiments on the NWPU VHR-10 dataset demonstrate that YOLO-SPCI achieves superior performance compared to state-of-the-art detectors.

arxiv情報

著者 Xinyuan Wang,Lian Peng,Xiangcheng Li,Yilin He,KinTak U
発行日 2025-05-27 16:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLO-SPCI: Enhancing Remote Sensing Object Detection via Selective-Perspective-Class Integration はコメントを受け付けていません

Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment

要約

最新のシングルイメージスーパー解像度(SISR)モデルは、訓練されているスケール因子で写真と現実的な結果を提供しますが、その政権をはるかに超えて拡大するように求められた場合は崩壊します。
このスケーラビリティのボトルネックは、SISRをマルチスケールを認識したプロンプトを備えた中間スケールステートの自己格納チェーンに因数分解するモデルに依存しないフレームワークであるチェーンオブZoom(COZ)を使用しています。
CozはバックボーンSRモデルを繰り返し再利用し、条件付きの確率を扱いやすいサブ問題に分解して、追加のトレーニングなしで極端な解決を達成します。
視覚的な手がかりは高倍率で減少するため、ビジョン言語モデル(VLM)によって生成されたマルチスケール認識テキストプロンプトで各ズームステップを増強します。
迅速な抽出器自体は、批評家VLMを使用した一般化された報酬ポリシー最適化(GRPO)を使用して微調整され、テキストガイダンスを人間の好みに合わせて調整します。
実験は、COZに包まれた標準の4x拡散SRモデルが、高い知覚品質と忠実度を備えた256倍の拡大を超えていることを示しています。
プロジェクトページ:https://bryanswkim.github.io/chain-of-zoom/。

要約(オリジナル)

Modern single-image super-resolution (SISR) models deliver photo-realistic results at the scale factors on which they are trained, but collapse when asked to magnify far beyond that regime. We address this scalability bottleneck with Chain-of-Zoom (CoZ), a model-agnostic framework that factorizes SISR into an autoregressive chain of intermediate scale-states with multi-scale-aware prompts. CoZ repeatedly re-uses a backbone SR model, decomposing the conditional probability into tractable sub-problems to achieve extreme resolutions without additional training. Because visual cues diminish at high magnifications, we augment each zoom step with multi-scale-aware text prompts generated by a vision-language model (VLM). The prompt extractor itself is fine-tuned using Generalized Reward Policy Optimization (GRPO) with a critic VLM, aligning text guidance towards human preference. Experiments show that a standard 4x diffusion SR model wrapped in CoZ attains beyond 256x enlargement with high perceptual quality and fidelity. Project Page: https://bryanswkim.github.io/chain-of-zoom/ .

arxiv情報

著者 Bryan Sangwoo Kim,Jeongsol Kim,Jong Chul Ye
発行日 2025-05-27 16:02:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment はコメントを受け付けていません

OrionBench: A Benchmark for Chart and Human-Recognizable Object Detection in Infographics

要約

科学、ビジネス、およびコミュニケーションのコンテキストにおけるチャートの中心的な役割を考えると、視覚言語モデル(VLM)のチャート理解能力を高めることがますます重要になっています。
既存のVLMの重要な制限は、アイコンや画像などのチャートや人間認識可能なオブジェクト(HRO)を含むインフォグラフィック要素の不正確な視覚的接地にあります。
ただし、チャートの理解には、関連する要素を特定し、推論する必要があることがよくあります。
この制限に対処するために、インフォグラフィックのチャートとHROの正確なオブジェクト検出モデルの開発をサポートするために設計されたベンチマークであるOrionBenchを紹介します。
26,250の本物と78,750の合成インフォグラフィックが含まれており、690万を超える境界ボックスアノテーションがあります。
これらの注釈は、ループのモデルとプログラムの方法を組み合わせて作成されます。
3つのアプリケーションを使用してOrionBenchの有用性を示します。1)VLMSのチャート理解パフォーマンスを高めるための思考ボックスのスキームを構築する、2)既存のオブジェクト検出モデルを比較する、3)開発された検出モデルを適用してレイアウトとUI要素検出を文書化します。

要約(オリジナル)

Given the central role of charts in scientific, business, and communication contexts, enhancing the chart understanding capabilities of vision-language models (VLMs) has become increasingly critical. A key limitation of existing VLMs lies in their inaccurate visual grounding of infographic elements, including charts and human-recognizable objects (HROs) such as icons and images. However, chart understanding often requires identifying relevant elements and reasoning over them. To address this limitation, we introduce OrionBench, a benchmark designed to support the development of accurate object detection models for charts and HROs in infographics. It contains 26,250 real and 78,750 synthetic infographics, with over 6.9 million bounding box annotations. These annotations are created by combining the model-in-the-loop and programmatic methods. We demonstrate the usefulness of OrionBench through three applications: 1) constructing a Thinking-with-Boxes scheme to boost the chart understanding performance of VLMs, 2) comparing existing object detection models, and 3) applying the developed detection model to document layout and UI element detection.

arxiv情報

著者 Jiangning Zhu,Yuxing Zhou,Zheng Wang,Juntao Yao,Yima Gu,Yuhui Yuan,Shixia Liu
発行日 2025-05-27 16:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | OrionBench: A Benchmark for Chart and Human-Recognizable Object Detection in Infographics はコメントを受け付けていません

Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?

要約

COTの推論とトレーニング後のRLの最近の進歩は、MLLMのビデオ推論機能を強化するために報告されています。
この進歩は自然に疑問を提起します。これらのモデルは、人間の専門家に匹敵する方法で複雑なビデオ推論を実行できますか?
ただし、既存のビデオベンチマークは、主に視覚的な知覚と接地能力を評価し、明示的なプロンプトまたは孤立した視覚キューに基づいて回答できる質問を使用します。
このようなベンチマークは、人間が結論に達する前に複数の手がかりを積極的に検索、統合、分析する必要がある現実世界の推論の複雑さを完全に捉えていません。
この問題に対処するために、MLLMSの複雑なビデオ推論機能を評価するために設計されたSherlock Holmesの推論プロセスに触発されたベンチマークであるビデオホルムズを提示します。
Video-Holmesは、7つの慎重に設計されたタスクにまたがる270の手動注釈付きサスペンスショートフィルムから派生した1,837の質問で構成されています。
各タスクは、最初にフィルム内の主要なイベントと因果関係を識別し、次にモデルが異なるビデオセグメントに散らばる複数の関連する視覚的手がかりを積極的に見つけて接続する必要がある質問を設計することによって構築されます。
最先端のMLLMSの包括的な評価は、これらのモデルは一般に視覚的認識に優れているが、情報の統合に大きな困難に遭遇し、しばしば重要な手がかりを見逃していることを明らかにしています。
たとえば、最高のパフォーマンスモデルであるGemini-2.5-Proは、45%の精度しか得られず、ほとんどのモデルは40%未満のスコアを達成しています。
ビデオホルムは、マルチモーダル推論の「ホームズテスト」として機能し、モデルを動機付けさせて人間のように推論し、この分野で進行中の課題を強調することを目指しています。
ベンチマークはhttps://github.com/tencentarc/video-holmesでリリースされます。

要約(オリジナル)

Recent advances in CoT reasoning and RL post-training have been reported to enhance video reasoning capabilities of MLLMs. This progress naturally raises a question: can these models perform complex video reasoning in a manner comparable to human experts? However, existing video benchmarks primarily evaluate visual perception and grounding abilities, with questions that can be answered based on explicit prompts or isolated visual cues. Such benchmarks do not fully capture the intricacies of real-world reasoning, where humans must actively search for, integrate, and analyze multiple clues before reaching a conclusion. To address this issue, we present Video-Holmes, a benchmark inspired by the reasoning process of Sherlock Holmes, designed to evaluate the complex video reasoning capabilities of MLLMs. Video-Holmes consists of 1,837 questions derived from 270 manually annotated suspense short films, which spans seven carefully designed tasks. Each task is constructed by first identifying key events and causal relationships within films, and then designing questions that require models to actively locate and connect multiple relevant visual clues scattered across different video segments. Our comprehensive evaluation of state-of-the-art MLLMs reveals that, while these models generally excel at visual perception, they encounter substantial difficulties with integrating information and often miss critical clues. For example, the best-performing model, Gemini-2.5-Pro, achieves an accuracy of only 45%, with most models scoring below 40%. We aim that Video-Holmes can serve as a ‘Holmes-test’ for multimodal reasoning, motivating models to reason more like humans and emphasizing the ongoing challenges in this field. The benchmark is released in https://github.com/TencentARC/Video-Holmes.

arxiv情報

著者 Junhao Cheng,Yuying Ge,Teng Wang,Yixiao Ge,Jing Liao,Ying Shan
発行日 2025-05-27 16:05:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? はコメントを受け付けていません