V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models

要約

マルチモーダル大手言語モデル(MLLM)の最近の進歩により、さまざまなマルチモーダルベンチマークにわたって大幅に改善されました。
ただし、評価が静的データセットからオープンワールドの動的環境に移行するにつれて、視覚中心のタスクがなく、実際の意思決定に必要な多様な推論スキルを評価できないため、現在のゲームベースのベンチマークは不十分なままです。
これに対処するために、MLLMの視覚的推論機能を評価するために設計されたゲームベースの評価フレームワークである視覚的中心の複数の能力ゲーム評価(V-Mage)を紹介します。
V-Mageは、30以上の手作りレベルを備えた5つの多様なゲームを特徴としており、ポジショニング、軌跡追跡、タイミング、視覚メモリなどのコアビジュアルスキルのテストモデルと、長期的な計画や審議などの高レベルの推論を備えています。
V-Mageを使用して、主要なMLLMSを評価し、視覚的認識と推論における重要な課題を明らかにしています。
すべてのゲーム環境で、ELO評価の比較によって決定される最高パフォーマンスのMLLMは、人間と比較してかなりのパフォーマンスギャップを示します。
私たちの調査結果は、モデルによって行われたさまざまなタイプの知覚エラーを含む重大な制限を強調し、エージェント中心の視点から改善するための潜在的な手段を示唆しています。
コードはhttps://github.com/csu-jpg/v-mageで入手できます。

要約(オリジナル)

Recent advancements in Multimodal Large Language Models (MLLMs) have led to significant improvements across various multimodal benchmarks. However, as evaluations shift from static datasets to open-world, dynamic environments, current game-based benchmarks remain inadequate because they lack visual-centric tasks and fail to assess the diverse reasoning skills required for real-world decision-making. To address this, we introduce Visual-centric Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five diverse games with 30+ handcrafted levels, testing models on core visual skills such as positioning, trajectory tracking, timing, and visual memory, alongside higher-level reasoning like long-term planning and deliberation. We use V-MAGE to evaluate leading MLLMs, revealing significant challenges in their visual perception and reasoning. In all game environments, the top-performing MLLMs, as determined by Elo rating comparisons, exhibit a substantial performance gap compared to humans. Our findings highlight critical limitations, including various types of perceptual errors made by the models, and suggest potential avenues for improvement from an agent-centric perspective, such as refining agent strategies and addressing perceptual inaccuracies. Code is available at https://github.com/CSU-JPG/V-MAGE.

arxiv情報

著者 Xiangxi Zheng,Linjie Li,Zhengyuan Yang,Ping Yu,Alex Jinpeng Wang,Rui Yan,Yuan Yao,Lijuan Wang
発行日 2025-04-08 15:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models はコメントを受け付けていません

Expertized Caption Auto-Enhancement for Video-Text Retrieval

要約

ビデオテキストの検索は、ビデオのパーソナライズされた不適切なテキストの説明によって引き起こされる情報の不一致に巻き込まれています。
2つのモダリティ間の実質的な情報のギャップは、効果的なクロスモーダル表現アラインメントを妨げ、曖昧な検索結果をもたらします。
テキストの表現を拡大するためにテキストの書き換え方法が提案されていますが、テキスト表現スペースが不十分なセマンティックエンリッチメントでほとんど拡張されていないため、モダリティギャップは依然として重要なままです。
作成されたキャプションの合理性と完全性を確保するには、作成されたプロンプトが不可欠です。
したがって、このペーパーでは、発現品質を改善し、自己学習を通じて拡張キャプションでの経験主義を軽減する自動キャプション強化方法を提案します。アドディションでは、専門化されたキャプション選択メカニズムが設計され、各ビデオの拡張キャプションをカスタマイズするように導入され、キャプションの増強の利用可能性をさらに調査することができます。
レキシコン依存を回避し、パーソナライズされたマッチングの導入。
私たちの方法の優位性は、さまざまなベンチマークで最先端の結果によって検証され、特にMSR-VTTで68.5%、MSVDで68.1%、Didemoで62.0%のTop-1リコールの精度を達成します。
私たちのコードは、https://github.com/caryxiang/eca4vtrで公開されています。

要約(オリジナル)

Video-text retrieval has been stuck in the information mismatch caused by personalized and inadequate textual descriptions of videos. The substantial information gap between the two modalities hinders an effective cross-modal representation alignment, resulting in ambiguous retrieval results. Although text rewriting methods have been proposed to broaden text expressions, the modality gap remains significant, as the text representation space is hardly expanded with insufficient semantic enrichment.Instead, this paper turns to enhancing visual presentation, bridging video expression closer to textual representation via caption generation and thereby facilitating video-text matching.While multimodal large language models (mLLM) have shown a powerful capability to convert video content into text, carefully crafted prompts are essential to ensure the reasonableness and completeness of the generated captions. Therefore, this paper proposes an automatic caption enhancement method that improves expression quality and mitigates empiricism in augmented captions through self-learning.Additionally, an expertized caption selection mechanism is designed and introduced to customize augmented captions for each video, further exploring the utilization potential of caption augmentation.Our method is entirely data-driven, which not only dispenses with heavy data collection and computation workload but also improves self-adaptability by circumventing lexicon dependence and introducing personalized matching. The superiority of our method is validated by state-of-the-art results on various benchmarks, specifically achieving Top-1 recall accuracy of 68.5% on MSR-VTT, 68.1% on MSVD, and 62.0% on DiDeMo. Our code is publicly available at https://github.com/CaryXiang/ECA4VTR.

arxiv情報

著者 Baoyao Yang,Junxiang Chen,Wanyun Li,Wenbin Yao,Yang Zhou
発行日 2025-04-08 15:45:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, H.3.3 | Expertized Caption Auto-Enhancement for Video-Text Retrieval はコメントを受け付けていません

A Large-Scale Analysis on Contextual Self-Supervised Video Representation Learning

要約

特に手動注釈が費用がかかり、時間がかかるビデオドメインで、ラベルのないモデルの事前削除の強力なパラダイムとして、自己教師の学習が浮上しています。
ただし、既存の自己監視アプローチでは、多様な実験セットアップが採用されており、標準化されたベンチマークがないため、直接的な比較が困難になります。
この作業では、さまざまな方法で公正な比較を可能にする統一ベンチマークを確立します。
さらに、ビデオの自己監視学習の5つの重要な側面を体系的に調査します:(1)データセットサイズ、(2)モデルの複雑さ、(3)データ分布、(4)データノイズ、および(5)機能表現。
この研究を促進するために、6つのネットワークアーキテクチャにわたって6つの自己監視学習方法を評価し、5つのベンチマークデータセットで広範な実験を実施し、2つの異なるダウンストリームタスクでパフォーマンスを評価します。
私たちの分析により、事前トレーニング戦略、データセットの特性、口実タスク、モデルアーキテクチャの相互作用に関する重要な洞察が明らかになりました。
さらに、これらの調査結果をビデオファンデーションモデル(VIFMS)に拡張し、大規模なビデオ表現学習におけるそれらの関連性を示しています。
最後に、これらの洞察を活用して、トレーニングデータの要件を大幅に削減しながら、10%の事前前データに依存する最先端の方法を上回る新しいアプローチを提案します。
この作品は、将来の研究を、自己教師のビデオ表現学習とその幅広い意味をより深く理解するために導くと考えています。

要約(オリジナル)

Self-supervised learning has emerged as a powerful paradigm for label-free model pretraining, particularly in the video domain, where manual annotation is costly and time-intensive. However, existing self-supervised approaches employ diverse experimental setups, making direct comparisons challenging due to the absence of a standardized benchmark. In this work, we establish a unified benchmark that enables fair comparisons across different methods. Additionally, we systematically investigate five critical aspects of self-supervised learning in videos: (1) dataset size, (2) model complexity, (3) data distribution, (4) data noise, and (5) feature representations. To facilitate this study, we evaluate six self-supervised learning methods across six network architectures, conducting extensive experiments on five benchmark datasets and assessing performance on two distinct downstream tasks. Our analysis reveals key insights into the interplay between pretraining strategies, dataset characteristics, pretext tasks, and model architectures. Furthermore, we extend these findings to Video Foundation Models (ViFMs), demonstrating their relevance in large-scale video representation learning. Finally, leveraging these insights, we propose a novel approach that significantly reduces training data requirements while surpassing state-of-the-art methods that rely on 10% more pretraining data. We believe this work will guide future research toward a deeper understanding of self-supervised video representation learning and its broader implications.

arxiv情報

著者 Akash Kumar,Ashlesha Kumar,Vibhav Vineet,Yogesh S Rawat
発行日 2025-04-08 15:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Large-Scale Analysis on Contextual Self-Supervised Video Representation Learning はコメントを受け付けていません

CAPM: Fast and Robust Verification on Maxpool-based CNN via Dual Network

要約

この研究では、CAPM(MaxpoolベースのCNNの凸異種ポリトープ)を使用して、境界のある規範敵対的摂動の下で、マックスプールベースの畳み込みニューラルネットワーク(CNN)のための検証された境界を改善します。
Maxpool関数は、一連のRelu関数として分解され、凸緩和技術をMaxpool関数に拡張し、検証境界をデュアルネットワークを介して効率的に計算できます。
実験結果は、この手法により、MaxpoolベースのCNNの最先端の検証精度が可能になり、Deepz、Deeppoly、Primaなどの現在の検証方法よりもはるかに低い計算コストが含まれることを示しています。
この方法は、大規模なCNNにも適用できます。これは、以前の研究では、しばしば計算的に法外に高価であることが示されています。
特定の状況では、CAPMは40倍、20倍、または2倍の速さであり、Prima/Deeppoly/Deepzと比較して、有意に高い検証境界(CAPM 98%対プリマ76%/Deeppoly 73%/DEEPZ 8%)を与えます。
さらに、アルゴリズムの時間の複雑さを$ o(w^2nk)$として追加します。ここで、$ w $はニューラルネットワークの最大幅、$ n $はニューロンの数、$ k $はマックスプール層のカーネルのサイズです。

要約(オリジナル)

This study uses CAPM (Convex Adversarial Polytope for Maxpool-based CNN) to improve the verified bound for general purpose maxpool-based convolutional neural networks (CNNs) under bounded norm adversarial perturbations. The maxpool function is decomposed as a series of ReLU functions to extend the convex relaxation technique to maxpool functions, by which the verified bound can be efficiently computed through a dual network. The experimental results demonstrate that this technique allows the state-of-the-art verification precision for maxpool-based CNNs and involves a much lower computational cost than current verification methods, such as DeepZ, DeepPoly and PRIMA. This method is also applicable to large-scale CNNs, which previous studies show to be often computationally prohibitively expensive. Under certain circumstances, CAPM is 40-times, 20-times or twice as fast and give a significantly higher verification bound (CAPM 98% vs. PRIMA 76%/DeepPoly 73%/DeepZ 8%) as compared to PRIMA/DeepPoly/DeepZ. Furthermore, we additionally present the time complexity of our algorithm as $O(W^2NK)$, where $W$ is the maximum width of the neural network, $N$ is the number of neurons, and $K$ is the size of the maxpool layer’s kernel.

arxiv情報

著者 Jia-Hau Bai,Chi-Ting Liu,Yu Wang,Fu-Chieh Chang,Pei-Yuan Wu
発行日 2025-04-08 15:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | CAPM: Fast and Robust Verification on Maxpool-based CNN via Dual Network はコメントを受け付けていません

Rethinking the Nested U-Net Approach: Enhancing Biomarker Segmentation with Attention Mechanisms and Multiscale Feature Fusion

要約

医療画像でバイオマーカーを特定することは、幅広いバイオテクノロジーアプリケーションに不可欠です。
ただし、最近の変圧器とCNNベースの方法は、形態と染色の変動に苦労していることが多く、特徴抽出能力が制限されます。
データサンプルがしばしば制限されている医療画像セグメンテーションでは、事前に訓練されたエンコーダーを使用することで最先端の(SOTA)方法を改善しますが、エンコーダーとデコーダー間でマルチスケール機能を効果的に転送するのが難しいため、エンドツーエンドのアプローチは通常不足しています。
これらの課題に対処するために、マルチスケールの特徴の融合と注意メカニズムを通じて、ローカルとグローバルの両方のコンテキストをキャプチャするネストされたUNETアーキテクチャを導入します。
この設計により、エンコーダーからの機能統合が改善され、キーチャネルと地域を強調し、空間的な詳細を復元してセグメンテーションのパフォーマンスを向上させます。
私たちの方法は、4つのデータセットと詳細なアブレーション研究の実験によって証明されるように、SOTAアプローチを上回ります。
コード:https://github.com/saadwazir/ren-unet

要約(オリジナル)

Identifying biomarkers in medical images is vital for a wide range of biotech applications. However, recent Transformer and CNN based methods often struggle with variations in morphology and staining, which limits their feature extraction capabilities. In medical image segmentation, where data samples are often limited, state-of-the-art (SOTA) methods improve accuracy by using pre-trained encoders, while end-to-end approaches typically fall short due to difficulties in transferring multiscale features effectively between encoders and decoders. To handle these challenges, we introduce a nested UNet architecture that captures both local and global context through Multiscale Feature Fusion and Attention Mechanisms. This design improves feature integration from encoders, highlights key channels and regions, and restores spatial details to enhance segmentation performance. Our method surpasses SOTA approaches, as evidenced by experiments across four datasets and detailed ablation studies. Code: https://github.com/saadwazir/ReN-UNet

arxiv情報

著者 Saad Wazir,Daeyoung Kim
発行日 2025-04-08 15:53:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Rethinking the Nested U-Net Approach: Enhancing Biomarker Segmentation with Attention Mechanisms and Multiscale Feature Fusion はコメントを受け付けていません

Action Valuation in Sports: A Survey

要約

アクション評価(AV)は、スポーツ分析の重要なトピックとして浮上しており、望ましい結果への貢献に基づいて個々のアクションにスコアを割り当てることにより、貴重な洞察を提供しています。
プレーヤーの評価などの関連する概念に対処するいくつかの調査にもかかわらず、さまざまなスポーツにわたるAVの詳細な分析に特化した包括的なレビューはありません。
この調査では、AVタスク、データ、方法論的アプローチ、評価技術、および実用的なアプリケーションを含むAVタスクに関連する9つの次元の分類法を紹介します。
この分析を通じて、効果的なAVメソッドの本質的な特性を特定し、研究の既存のギャップを強調し、フィールドを進めるための将来の方向性を提案することを目指しています。

要約(オリジナル)

Action Valuation (AV) has emerged as a key topic in Sports Analytics, offering valuable insights by assigning scores to individual actions based on their contribution to desired outcomes. Despite a few surveys addressing related concepts such as Player Valuation, there is no comprehensive review dedicated to an in-depth analysis of AV across different sports. In this survey, we introduce a taxonomy with nine dimensions related to the AV task, encompassing data, methodological approaches, evaluation techniques, and practical applications. Through this analysis, we aim to identify the essential characteristics of effective AV methods, highlight existing gaps in research, and propose future directions for advancing the field.

arxiv情報

著者 Artur Xarles,Sergio Escalera,Thomas B. Moeslund,Albert Clapés
発行日 2025-04-08 15:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Action Valuation in Sports: A Survey はコメントを受け付けていません

Flash Sculptor: Modular 3D Worlds from Objects

要約

既存のテキストから3Dへのテキストと3Dへの画像間モデルは、多くの場合、複数のオブジェクトと複雑な相互作用を含む複雑なシーンと格闘しています。
最近のいくつかの試みでは、このような構成シナリオが調査されていますが、レイアウト全体を最適化する広範なプロセスが必要です。
これらの課題を克服するために、このペーパーでは、単一の画像からの構成3Dシーン/オブジェクトの再構築のためのシンプルで効果的なフレームワークであるこの論文では、フラッシュ彫刻家を提案します。
Flashの中心に彫刻家は分割戦略があり、それは、個々のインスタンスの外観、回転、スケール、翻訳の取り扱いなど、構成シーンの再構成を一連のサブタスクに切り離します。
具体的には、回転のために、翻訳のために、両方の世界の最善の世界(効率性と精度)をもたらす粗から洗練されたスキームを導入します。
広範な実験は、フラッシュ彫刻家が既存の組成3Dメソッドよりも少なくとも3倍のスピードアップを達成し、組成3D再構成パフォーマンスで新しいベンチマークを設定することを示しています。
コードはhttps://github.com/yujiahu1109/flash-sculptorで入手できます。

要約(オリジナル)

Existing text-to-3D and image-to-3D models often struggle with complex scenes involving multiple objects and intricate interactions. Although some recent attempts have explored such compositional scenarios, they still require an extensive process of optimizing the entire layout, which is highly cumbersome if not infeasible at all. To overcome these challenges, we propose Flash Sculptor in this paper, a simple yet effective framework for compositional 3D scene/object reconstruction from a single image. At the heart of Flash Sculptor lies a divide-and-conquer strategy, which decouples compositional scene reconstruction into a sequence of sub-tasks, including handling the appearance, rotation, scale, and translation of each individual instance. Specifically, for rotation, we introduce a coarse-to-fine scheme that brings the best of both worlds–efficiency and accuracy–while for translation, we develop an outlier-removal-based algorithm that ensures robust and precise parameters in a single step, without any iterative optimization. Extensive experiments demonstrate that Flash Sculptor achieves at least a 3 times speedup over existing compositional 3D methods, while setting new benchmarks in compositional 3D reconstruction performance. Codes are available at https://github.com/YujiaHu1109/Flash-Sculptor.

arxiv情報

著者 Yujia Hu,Songhua Liu,Xingyi Yang,Xinchao Wang
発行日 2025-04-08 16:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Flash Sculptor: Modular 3D Worlds from Objects はコメントを受け付けていません

WoundAmbit: Bridging State-of-the-Art Semantic Segmentation and Real-World Wound Care

要約

慢性創傷は、特に高齢者および糖尿病患者に大きな集団に影響を与えます。高齢患者は、しばしば限られた機動性と共存する健康状態を示します。
モバイルイメージキャプチャによる自動化された創傷監視は、創傷サイズのリモートトラッキングを可能にすることにより、個人の医師への訪問を減らすことができます。
セマンティックセグメンテーションはこのプロセスの鍵ですが、創傷セグメンテーションは医療イメージング研究では依然として過小評価されています。
これに対処するために、一般的な視覚、医療イメージング、および公共の傷の課題からの最大の方法から最先端の深い学習モデルをベンチマークします。
公正な比較のために、トレーニング、データの増強、評価を標準化し、分割バイアスを最小限に抑えるために相互検証を実施します。
また、分散外の創傷データセットへの一般化、計算効率、解釈可能性を含む、実際の展開の側面を評価します。
さらに、AIに生成されたマスクを臨床的に関連する創傷サイズの推定値に変換するための参照オブジェクトベースのアプローチを提案し、医師の評価に基づいた最良のモデルについて、マスク品質とともにこれを評価します。
全体として、トランスベースのトランスネックスは、一般化の最高レベルを示しました。
推論時間の変動にもかかわらず、すべてのモデルはCPUで少なくとも1秒あたり1つの画像を処理しました。これは、意図したアプリケーションに適しているとみなされます。
解釈可能性分析は通常、創傷領域で顕著な活性化を明らかにし、臨床的に関連する特徴に焦点を当てました。
専門家の評価では、すべての分析されたモデルの高いマスク承認が示され、VWFormerとConvnextsのバックボーンが最高のパフォーマンスを発揮しました。
サイズの検索精度はモデル間で類似しており、予測は専門家の注釈と密接に一致しました。
最後に、AI駆動型の創傷サイズの推定フレームワークであるRundambitをカスタムテレヘルスシステムに統合する方法を示します。
当社のコードは、公開時にGitHubで利用可能になります。

要約(オリジナル)

Chronic wounds affect a large population, particularly the elderly and diabetic patients, who often exhibit limited mobility and co-existing health conditions. Automated wound monitoring via mobile image capture can reduce in-person physician visits by enabling remote tracking of wound size. Semantic segmentation is key to this process, yet wound segmentation remains underrepresented in medical imaging research. To address this, we benchmark state-of-the-art deep learning models from general-purpose vision, medical imaging, and top methods from public wound challenges. For fair comparison, we standardize training, data augmentation, and evaluation, conducting cross-validationto minimize partitioning bias. We also assess real-world deployment aspects, including generalization to an out-of-distribution wound dataset, computational efficiency, and interpretability. Additionally, we propose a reference object-based approach to convert AI-generated masks into clinically relevant wound size estimates, and evaluate this, along with mask quality, for the best models based on physician assessments. Overall, the transformer-based TransNeXt showed the highest levels of generalizability. Despite variations in inference times, all models processed at least one image per second on the CPU, which is deemed adequate for the intended application. Interpretability analysis typically revealed prominent activations in wound regions, emphasizing focus on clinically relevant features. Expert evaluation showed high mask approval for all analyzed models, with VWFormer and ConvNeXtS backbone performing the best. Size retrieval accuracy was similar across models, and predictions closely matched expert annotations. Finally, we demonstrate how our AI-driven wound size estimation framework, WoundAmbit, can be integrated into a custom telehealth system. Our code will be made available on GitHub upon publication.

arxiv情報

著者 Vanessa Borst,Timo Dittus,Tassilo Dege,Astrid Schmieder,Samuel Kounev
発行日 2025-04-08 16:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | WoundAmbit: Bridging State-of-the-Art Semantic Segmentation and Real-World Wound Care はコメントを受け付けていません

ActiveGS: Active Scene Reconstruction Using Gaussian Splatting

要約

ロボットアプリケーションは、多くの場合、シーンの再構成に依存して、ダウンストリームタスクを有効にします。
この作業では、モバイルプラットフォーム上のRGB-Dカメラを使用して、未知のシーンの正確なマップを積極的に構築するという課題に取り組みます。
ガウスのスプラットマップと粗いボクセルマップを組み合わせたハイブリッドマップ表現を提案し、両方の表現の強度を活用します:ガウススプラッティングの高忠実度シーン再構成機能とボクセルマップの空間モデリング強度。
私たちのフレームワークの中心にあるのは、ガウスのスプラットマップマップの効果的な信頼モデリング手法であり、再構築されていない領域を特定しながら、Voxelマップからの空間情報を利用していない領域に使用し、衝突のないパス計画を支援します。
マップアップデートのために再構築されていない未開拓の領域でシーン情報を積極的に収集することにより、私たちのアプローチは、最先端のアプローチと比較して優れたガウスのスプラット再構成結果を達成します。
さらに、無人航空機を使用してフレームワークの実際の適用性を示します。

要約(オリジナル)

Robotics applications often rely on scene reconstructions to enable downstream tasks. In this work, we tackle the challenge of actively building an accurate map of an unknown scene using an RGB-D camera on a mobile platform. We propose a hybrid map representation that combines a Gaussian splatting map with a coarse voxel map, leveraging the strengths of both representations: the high-fidelity scene reconstruction capabilities of Gaussian splatting and the spatial modelling strengths of the voxel map. At the core of our framework is an effective confidence modelling technique for the Gaussian splatting map to identify under-reconstructed areas, while utilising spatial information from the voxel map to target unexplored areas and assist in collision-free path planning. By actively collecting scene information in under-reconstructed and unexplored areas for map updates, our approach achieves superior Gaussian splatting reconstruction results compared to state-of-the-art approaches. Additionally, we demonstrate the real-world applicability of our framework using an unmanned aerial vehicle.

arxiv情報

著者 Liren Jin,Xingguang Zhong,Yue Pan,Jens Behley,Cyrill Stachniss,Marija Popović
発行日 2025-04-08 16:26:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ActiveGS: Active Scene Reconstruction Using Gaussian Splatting はコメントを受け付けていません

Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

要約

大規模なマルチモダリティモデル(LMM)は、視覚的理解と生成に大きな進歩を遂げていますが、特に複雑な指示に従い、外観の一貫性を維持し、柔軟な入力形式をサポートする際に、一般的な視覚編集で依然として課題に直面しています。
このギャップに対処するために、推論に基づいた視覚編集(Rise)を評価するための最初のベンチマークであるRiseBenchを紹介します。
RiseBenchは、時間、因果、空間、および論理的推論の4つの重要な推論タイプに焦点を当てています。
各カテゴリの高品質のテストケースをキュレートし、人間の裁判官とLMMとしてのジャッジアプローチの両方で、指導の推論、外観の一貫性、および視覚的妥当性を評価する評価フレームワークを提案します。
私たちの実験では、GPT-4o-nativeは他のオープンソースや独自のモデルを大幅に上回っていますが、この最先端のシステムでさえ、目立たない範囲の領域を強調している論理的推論タスクと格闘しています。
最初の努力として、Risebenchは、推論を認識した視覚編集に関する基礎的な洞察を提供し、将来の研究を触媒することを目指しています。
まだ初期段階にありますが、ベンチマークを継続的に拡大および改良して、次世代マルチモーダルシステムのより包括的で信頼性の高いスケーラブルな評価をサポートすることに取り組んでいます。
コードとデータはhttps://github.com/phoenixz810/risebenchでリリースされます。

要約(オリジナル)

Large Multi-modality Models (LMMs) have made significant progress in visual understanding and generation, but they still face challenges in General Visual Editing, particularly in following complex instructions, preserving appearance consistency, and supporting flexible input formats. To address this gap, we introduce RISEBench, the first benchmark for evaluating Reasoning-Informed viSual Editing (RISE). RISEBench focuses on four key reasoning types: Temporal, Causal, Spatial, and Logical Reasoning. We curate high-quality test cases for each category and propose an evaluation framework that assesses Instruction Reasoning, Appearance Consistency, and Visual Plausibility with both human judges and an LMM-as-a-judge approach. Our experiments reveal that while GPT-4o-Native significantly outperforms other open-source and proprietary models, even this state-of-the-art system struggles with logical reasoning tasks, highlighting an area that remains underexplored. As an initial effort, RISEBench aims to provide foundational insights into reasoning-aware visual editing and to catalyze future research. Though still in its early stages, we are committed to continuously expanding and refining the benchmark to support more comprehensive, reliable, and scalable evaluations of next-generation multimodal systems. Our code and data will be released at https://github.com/PhoenixZ810/RISEBench.

arxiv情報

著者 Xiangyu Zhao,Peiyuan Zhang,Kexian Tang,Hao Li,Zicheng Zhang,Guangtao Zhai,Junchi Yan,Hua Yang,Xue Yang,Haodong Duan
発行日 2025-04-08 16:43:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing はコメントを受け付けていません