Towards Varroa destructor mite detection using a narrow spectra illumination

要約

このペーパーでは、U-NET、セマンティックセグメンテーションアーキテクチャ、および従来のコンピュータービジョン方法を利用しながら、ハイパースペクトル画像の助けを借りて、ミツバチの蜂の巣監視デバイスとヴァロアデストラクタ検出の開発と修正に焦点を当てています。
主な目的は、ミツバチとダニのデータセットを収集し、ミツバチとダニの間の検出を実現できるコンピュータービジョンモデルを提案することでした。

要約(オリジナル)

This paper focuses on the development and modification of a beehive monitoring device and Varroa destructor detection on the bees with the help of hyperspectral imagery while utilizing a U-net, semantic segmentation architecture, and conventional computer vision methods. The main objectives were to collect a dataset of bees and mites, and propose the computer vision model which can achieve the detection between bees and mites.

arxiv情報

著者 Samuel Bielik,Simon Bilik
発行日 2025-04-08 14:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Towards Varroa destructor mite detection using a narrow spectra illumination はコメントを受け付けていません

VIRES: Video Instance Repainting via Sketch and Text Guided Generation

要約

スケッチとテキストのガイダンスを使用したビデオインスタンスの補償方法であるViresを紹介し、ビデオインスタンスの補償、交換、生成、および削除を可能にします。
既存のアプローチは、一時的な一貫性と、提供されたスケッチシーケンスとの正確な整合と格闘しています。
Viresは、テキスト間モデルの生成前の事前を活用して、時間的な一貫性を維持し、視覚的に心地よい結果を生み出します。
標準化されたセルフスケーリングを使用したシーケンシャルコントロールネットを提案します。これにより、構造レイアウトを効果的に抽出し、高コントラストのスケッチの詳細を適応的にキャプチャします。
さらに、スケッチの注意を払って拡散変圧器のバックボーンを強化し、細粒のスケッチセマンティクスを解釈および注入します。
スケッチ認識エンコーダーは、塗り直された結果が提供されたスケッチシーケンスと一致することを保証します。
さらに、ビデオインスタンスの編集方法のトレーニングと評価に合わせた詳細な注釈を備えたデータセットであるViresetを提供します。
実験結果は、ウイルスの有効性を示しており、視覚的な品質、時間的一貫性、条件アライメント、および人間の評価における最先端の方法よりも優れています。
プロジェクトページ:https://hjzheng.net/projects/vires/

要約(オリジナル)

We introduce VIRES, a video instance repainting method with sketch and text guidance, enabling video instance repainting, replacement, generation, and removal. Existing approaches struggle with temporal consistency and accurate alignment with the provided sketch sequence. VIRES leverages the generative priors of text-to-video models to maintain temporal consistency and produce visually pleasing results. We propose the Sequential ControlNet with the standardized self-scaling, which effectively extracts structure layouts and adaptively captures high-contrast sketch details. We further augment the diffusion transformer backbone with the sketch attention to interpret and inject fine-grained sketch semantics. A sketch-aware encoder ensures that repainted results are aligned with the provided sketch sequence. Additionally, we contribute the VireSet, a dataset with detailed annotations tailored for training and evaluating video instance editing methods. Experimental results demonstrate the effectiveness of VIRES, which outperforms state-of-the-art methods in visual quality, temporal consistency, condition alignment, and human ratings. Project page: https://hjzheng.net/projects/VIRES/

arxiv情報

著者 Shuchen Weng,Haojie Zheng,Peixuan Zhang,Yuchen Hong,Han Jiang,Si Li,Boxin Shi
発行日 2025-04-08 14:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VIRES: Video Instance Repainting via Sketch and Text Guided Generation はコメントを受け付けていません

To Match or Not to Match: Revisiting Image Matching for Reliable Visual Place Recognition

要約

Visual Place認識(VPR)は、コンピュータービジョンにおける重要なタスクであり、画像マッチングで検索結果を再ランクすることで伝統的に強化されていました。
ただし、VPRメソッドの最近の進歩により、パフォーマンスが大幅に改善され、再ランクの必要性が困難になりました。
この作業では、現在のVPRデータセットが大部分が飽和しているため、最新の検索システムが再ランクが結果を分解できるポイントに到達することが多いことを示しています。
検索の信頼を評価するための検証ステップとして画像マッチングを使用して使用することを提案します。これは、再ランキングが有益である場合に、その中間カウントが確実に予測できることを示しています。
私たちの調査結果は、検索パイプラインのパラダイムをシフトし、より堅牢で適応性のあるVPRシステムの洞察を提供します。

要約(オリジナル)

Visual Place Recognition (VPR) is a critical task in computer vision, traditionally enhanced by re-ranking retrieval results with image matching. However, recent advancements in VPR methods have significantly improved performance, challenging the necessity of re-ranking. In this work, we show that modern retrieval systems often reach a point where re-ranking can degrade results, as current VPR datasets are largely saturated. We propose using image matching as a verification step to assess retrieval confidence, demonstrating that inlier counts can reliably predict when re-ranking is beneficial. Our findings shift the paradigm of retrieval pipelines, offering insights for more robust and adaptive VPR systems.

arxiv情報

著者 Davide Sferrazza,Gabriele Berton,Gabriele Trivigno,Carlo Masone
発行日 2025-04-08 15:10:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | To Match or Not to Match: Revisiting Image Matching for Reliable Visual Place Recognition はコメントを受け付けていません

Hyperbolic Category Discovery

要約

一般化されたカテゴリ発見(GCD)は、注目を集めている興味深いオープンワールドの問題です。
ラベル付き画像と非標識画像の両方を含むデータセットが与えられた場合、GCDは、既知のクラスまたは不明なクラスに属しているかどうかに関係なく、非標識サブセット内のすべての画像を分類することを目指しています。
GCDでは、一般的な慣行には通常、ユークリッドまたは球状空間内で動作する自己監視された前ored骨骨の端に球状投影演算子を適用することが含まれます。
ただし、これらのスペースは両方とも、階層構造を持つサンプルをエンコードするために最適ではないことが示されています。
対照的に、双曲線空間は、半径と比較して指数関数的な体積の成長を示し、見られたカテゴリと目に見えないカテゴリの両方からサンプルの階層構造をキャプチャするのが本質的に強くなっています。
したがって、双曲線空間でのカテゴリディスカバリーチャレンジに取り組むことを提案します。
一般化された\ underline {c} ategory \ underline {d} iscoveryの階層認識表現と分類器を学習するための単純な\ underline {hyp} erbolicフレームワークであるHipcdを紹介します。
HYPCDは、まずバックボーンネットワークのユークリッド埋め込みスペースを双曲線空間に変換し、双曲線距離とサンプル間の角度の両方を考慮して、その後の表現と分類学習を促進します。
このアプローチは、GCDの既知のカテゴリから未知のカテゴリへの知識移転に特に役立ちます。
パブリックGCDベンチマークでLipCDを徹底的に評価し、さまざまなベースラインおよび最先端の方法に適用し、一貫して大幅な改善を達成します。

要約(オリジナル)

Generalized Category Discovery (GCD) is an intriguing open-world problem that has garnered increasing attention. Given a dataset that includes both labelled and unlabelled images, GCD aims to categorize all images in the unlabelled subset, regardless of whether they belong to known or unknown classes. In GCD, the common practice typically involves applying a spherical projection operator at the end of the self-supervised pretrained backbone, operating within Euclidean or spherical space. However, both of these spaces have been shown to be suboptimal for encoding samples that possesses hierarchical structures. In contrast, hyperbolic space exhibits exponential volume growth relative to radius, making it inherently strong at capturing the hierarchical structure of samples from both seen and unseen categories. Therefore, we propose to tackle the category discovery challenge in the hyperbolic space. We introduce HypCD, a simple \underline{Hyp}erbolic framework for learning hierarchy-aware representations and classifiers for generalized \underline{C}ategory \underline{D}iscovery. HypCD first transforms the Euclidean embedding space of the backbone network into hyperbolic space, facilitating subsequent representation and classification learning by considering both hyperbolic distance and the angle between samples. This approach is particularly helpful for knowledge transfer from known to unknown categories in GCD. We thoroughly evaluate HypCD on public GCD benchmarks, by applying it to various baseline and state-of-the-art methods, consistently achieving significant improvements.

arxiv情報

著者 Yuanpei Liu,Zhenqi He,Kai Han
発行日 2025-04-08 15:12:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hyperbolic Category Discovery はコメントを受け付けていません

A Robust Real-Time Lane Detection Method with Fog-Enhanced Feature Fusion for Foggy Conditions

要約

レーン検出は、高度なドライバー支援システム(ADA)の重要なコンポーネントです。
既存のレーン検出アルゴリズムは、一般に、好ましい気象条件の下でうまく機能します。
しかし、彼らのパフォーマンスは、霧などの不利な条件で大幅に低下し、交通事故のリスクが高まります。
この課題は、霧の環境向けに設計された特殊なデータセットと方法がないことによって悪化します。
これに対処するために、実際の霧のようなシナリオでキャプチャされたFoggylaneデータセットを導入し、既存の人気レーン検出データセットから2つの追加データセット、FoggyculaneとFoggytusimpleを合成します。
さらに、レーン検出のための堅牢な霧強化ネットワークを提案します。グローバルな特徴融合モジュール(GFFM)を組み込んで、霧の画像のグローバルな関係をキャプチャし、カーネル特徴融合モジュール(KFFM)をレーンインスタンスの構造的および位置的関係をモデル化し、ローエッジ強化モジュール(LEEM)をモデル化します。
包括的な実験は、私たちの方法が最先端のパフォーマンスを達成し、F1スコアのFoggylane、Foggyculaneで79.85、Foggytusimpleで96.95であることを示しています。
さらに、Tensortの加速により、この方法はNvidia Jetson AGX Orinで38.4 fpsの処理速度に達し、霧の環境でのリアルタイム機能と堅牢性を確認します。

要約(オリジナル)

Lane detection is a critical component of Advanced Driver Assistance Systems (ADAS). Existing lane detection algorithms generally perform well under favorable weather conditions. However, their performance degrades significantly in adverse conditions, such as fog, which increases the risk of traffic accidents. This challenge is compounded by the lack of specialized datasets and methods designed for foggy environments. To address this, we introduce the FoggyLane dataset, captured in real-world foggy scenarios, and synthesize two additional datasets, FoggyCULane and FoggyTusimple, from existing popular lane detection datasets. Furthermore, we propose a robust Fog-Enhanced Network for lane detection, incorporating a Global Feature Fusion Module (GFFM) to capture global relationships in foggy images, a Kernel Feature Fusion Module (KFFM) to model the structural and positional relationships of lane instances, and a Low-level Edge Enhanced Module (LEEM) to address missing edge details in foggy conditions. Comprehensive experiments demonstrate that our method achieves state-of-the-art performance, with F1-scores of 95.04 on FoggyLane, 79.85 on FoggyCULane, and 96.95 on FoggyTusimple. Additionally, with TensorRT acceleration, the method reaches a processing speed of 38.4 FPS on the NVIDIA Jetson AGX Orin, confirming its real-time capabilities and robustness in foggy environments.

arxiv情報

著者 Ronghui Zhang,Yuhang Ma,Tengfei Li,Ziyu Lin,Yueying Wu,Junzhou Chen,Lin Zhang,Jia Hu,Tony Z. Qiu,Konghui Guo
発行日 2025-04-08 15:13:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Robust Real-Time Lane Detection Method with Fog-Enhanced Feature Fusion for Foggy Conditions はコメントを受け付けていません

FaceCloak: Learning to Protect Face Templates

要約

生成モデルは、セキュリティとプライバシーの懸念を高める元の顔に顕著な肖像を持つ、エンコードされた表現(テンプレート)からフェイス画像を再構築できます。
SMARTで再生可能なバイナリクロークを生成することにより、フェイステンプレートを保護するニューラルネットワークフレームワークであるFaceCloakを提示します。
私たちの方法は、その場で単一の顔のテンプレートから合成された一意の破壊者で顔のテンプレートを覆うことにより、反転攻撃を積極的に妨害しながら、バイオメトリックの有用性と非難を実証します。
私たちのクロークされたテンプレートは、新しい機能抽出スキームに一般化しながら、生体認証のマッチングと再構築攻撃への回復力の観点から、主要なベースラインを上回る間、機密属性を抑制します。
Facecloakベースのマッチングは非常に高速(推論時間コスト= 0.28ms)および軽量(0.57MB)です。

要約(オリジナル)

Generative models can reconstruct face images from encoded representations (templates) bearing remarkable likeness to the original face raising security and privacy concerns. We present FaceCloak, a neural network framework that protects face templates by generating smart, renewable binary cloaks. Our method proactively thwarts inversion attacks by cloaking face templates with unique disruptors synthesized from a single face template on the fly while provably retaining biometric utility and unlinkability. Our cloaked templates can suppress sensitive attributes while generalizing to novel feature extraction schemes and outperforms leading baselines in terms of biometric matching and resiliency to reconstruction attacks. FaceCloak-based matching is extremely fast (inference time cost=0.28ms) and light-weight (0.57MB).

arxiv情報

著者 Sudipta Banerjee,Anubhav Jain,Chinmay Hegde,Nasir Memon
発行日 2025-04-08 15:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FaceCloak: Learning to Protect Face Templates はコメントを受け付けていません

ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction

要約

ボリュームレンダリングを介した神経暗黙の再構築により、高密度の3D表面の回復における有効性が実証されています。
ただし、特性が異なる地域全体で同時に綿密なジオメトリを回復し、滑らかさを維持することは自明ではありません。
この問題に対処するために、以前の方法は通常、以前のモデルのパフォーマンスによって制約されることが多い幾何学的なプライアーを採用しています。
この論文では、ND-SDFを提案します。ND-SDFは、正常な偏向フィールドを学習し、シーン正常と以前の通常の角偏差を表すことを学習します。
すべてのサンプルに幾何学的事前に均一に適用される以前の方法とは異なり、精度の重要なバイアスを導入すると、提案されている通常のたわみフィールドは、特定の特性に基づいてサンプルの利用を動的に学習および適応させ、それによってモデルの精度と有効性の両方を改善します。
私たちの方法は、壁や床などの滑らかな弱いテクスチャーの領域を取得するだけでなく、複雑な構造の幾何学的な詳細を保存します。
さらに、偏向角度に基づいて新しい光線サンプリング戦略を導入して、特に薄い構造で複雑な表面の品質と精度を大幅に改善する偏りのないレンダリングプロセスを促進します。
さまざまな挑戦的なデータセットの一貫した改善は、私たちの方法の優位性を示しています。

要約(オリジナル)

Neural implicit reconstruction via volume rendering has demonstrated its effectiveness in recovering dense 3D surfaces. However, it is non-trivial to simultaneously recover meticulous geometry and preserve smoothness across regions with differing characteristics. To address this issue, previous methods typically employ geometric priors, which are often constrained by the performance of the prior models. In this paper, we propose ND-SDF, which learns a Normal Deflection field to represent the angular deviation between the scene normal and the prior normal. Unlike previous methods that uniformly apply geometric priors on all samples, introducing significant bias in accuracy, our proposed normal deflection field dynamically learns and adapts the utilization of samples based on their specific characteristics, thereby improving both the accuracy and effectiveness of the model. Our method not only obtains smooth weakly textured regions such as walls and floors but also preserves the geometric details of complex structures. In addition, we introduce a novel ray sampling strategy based on the deflection angle to facilitate the unbiased rendering process, which significantly improves the quality and accuracy of intricate surfaces, especially on thin structures. Consistent improvements on various challenging datasets demonstrate the superiority of our method.

arxiv情報

著者 Ziyu Tang,Weicai Ye,Yifan Wang,Di Huang,Hujun Bao,Tong He,Guofeng Zhang
発行日 2025-04-08 15:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction はコメントを受け付けていません

A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model

要約

スケールワイズの自己回帰モデルを活用するトレーニングフリーのスタイルに合わせた画像生成方法を提示します。
大規模なテキストからイメージ(T2I)モデル、特に拡散ベースの方法は印象的な発電の品質を実証していますが、生成された画像セットとゆっくりとした推論速度全体でスタイルの不整合に苦しみ、実用的な使いやすさを制限します。
これらの問題に対処するために、3つの重要なコンポーネントを提案します。一貫したバックグラウンド外観を確保するための初期機能置換、オブジェクトの配置を調整するための極めて重要な特徴補間、およびスケジュール関数を使用してスタイルの一貫性を強化するダイナミックスタイルインジェクション。
微調整や追加のトレーニングを必要とする以前の方法とは異なり、私たちのアプローチは、個々のコンテンツの詳細を維持しながら、高速な推論を維持します。
広範な実験では、我々の方法が競合するアプローチに匹敵する生成品質を達成し、スタイルのアライメントを大幅に改善し、最速のモデルの6倍以上の推論速度を提供することが示されています。

要約(オリジナル)

We present a training-free style-aligned image generation method that leverages a scale-wise autoregressive model. While large-scale text-to-image (T2I) models, particularly diffusion-based methods, have demonstrated impressive generation quality, they often suffer from style misalignment across generated image sets and slow inference speeds, limiting their practical usability. To address these issues, we propose three key components: initial feature replacement to ensure consistent background appearance, pivotal feature interpolation to align object placement, and dynamic style injection, which reinforces style consistency using a schedule function. Unlike previous methods requiring fine-tuning or additional training, our approach maintains fast inference while preserving individual content details. Extensive experiments show that our method achieves generation quality comparable to competing approaches, significantly improves style alignment, and delivers inference speeds over six times faster than the fastest model.

arxiv情報

著者 Jihun Park,Jongmin Gim,Kyoungmin Lee,Minseok Oh,Minwoo Choi,Jaeyeul Kim,Woo Chool Park,Sunghoon Im
発行日 2025-04-08 15:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model はコメントを受け付けていません

Parameter choices in HaarPSI for IQA with medical images

要約

機械学習モデルを開発する場合、画像品質評価(IQA)測定は、取得した出力画像の評価に重要なコンポーネントです。
ただし、一般的に使用されるフルレファレンスIQA(FR-IQA)測定は主に開発され、自然画像用に最適化されています。
医療画像などの多くの専門的な設定では、これは適切性に関する見落とされがちな問題をもたらします。
以前の研究では、FR-IQA測定Haarpsiは、一般化可能性に関する有望な行動を示しました。
測定値はHaarウェーブレット表現に基づいており、フレームワークは2つのパラメーターを最適化できます。
これまでのところ、これらのパラメーターは自然画像に対して整合されています。
ここでは、IQAの専門家評価を備えた2つの医療画像データセット、光音響データセットと胸部X線データセットのこれらのパラメーターを最適化します。
自然画像データとは異なる同様のパラメーター値につながり、パラメーターの変更により敏感であることがわかります。
新しい最適化された設定をHaarpsi $ _ {Med} $として示します。これにより、採用された医療画像のパフォーマンスが大幅に向上します(P <0.05)。 さらに、Haarpsi $ _ {Med} $の一般化可能性を示す独立したCTテストデータセットと、改善を定性的に実証する視覚的な例を含めます。 この結果は、医療画像のフレームワーク内に一般的なIQA測定を適応させることで、より具体的なタスクベースの測定値の採用に貴重で一般化可能な追加を提供できることを示唆しています。

要約(オリジナル)

When developing machine learning models, image quality assessment (IQA) measures are a crucial component for the evaluation of obtained output images. However, commonly used full-reference IQA (FR-IQA) measures have been primarily developed and optimized for natural images. In many specialized settings, such as medical images, this poses an often overlooked problem regarding suitability. In previous studies, the FR-IQA measure HaarPSI showed promising behavior regarding generalizability. The measure is based on Haar wavelet representations and the framework allows optimization of two parameters. So far, these parameters have been aligned for natural images. Here, we optimize these parameters for two medical image data sets, a photoacoustic and a chest X-ray data set, with IQA expert ratings. We observe that they lead to similar parameter values, different to the natural image data, and are more sensitive to parameter changes. We denote the novel optimized setting as HaarPSI$_{MED}$, which improves the performance of the employed medical images significantly (p<0.05). Additionally, we include an independent CT test data set that illustrates the generalizability of HaarPSI$_{MED}$, as well as visual examples that qualitatively demonstrate the improvement. The results suggest that adapting common IQA measures within their frameworks for medical images can provide a valuable, generalizable addition to employment of more specific task-based measures.

arxiv情報

著者 Clemens Karner,Janek Gröhl,Ian Selby,Judith Babar,Jake Beckford,Thomas R Else,Timothy J Sadler,Shahab Shahipasand,Arthikkaa Thavakumar,Michael Roberts,James H. F. Rudd,Carola-Bibiane Schönlieb,Jonathan R Weir-McCall,Anna Breger
発行日 2025-04-08 15:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Parameter choices in HaarPSI for IQA with medical images はコメントを受け付けていません

V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models

要約

マルチモーダル大手言語モデル(MLLM)の最近の進歩により、さまざまなマルチモーダルベンチマークにわたって大幅に改善されました。
ただし、評価が静的データセットからオープンワールドの動的環境に移行するにつれて、視覚中心のタスクがなく、実際の意思決定に必要な多様な推論スキルを評価できないため、現在のゲームベースのベンチマークは不十分なままです。
これに対処するために、MLLMの視覚的推論機能を評価するために設計されたゲームベースの評価フレームワークである視覚的中心の複数の能力ゲーム評価(V-Mage)を紹介します。
V-Mageは、30以上の手作りレベルを備えた5つの多様なゲームを特徴としており、ポジショニング、軌跡追跡、タイミング、視覚メモリなどのコアビジュアルスキルのテストモデルと、長期的な計画や審議などの高レベルの推論を備えています。
V-Mageを使用して、主要なMLLMSを評価し、視覚的認識と推論における重要な課題を明らかにしています。
すべてのゲーム環境で、ELO評価の比較によって決定される最高パフォーマンスのMLLMは、人間と比較してかなりのパフォーマンスギャップを示します。
私たちの調査結果は、モデルによって行われたさまざまなタイプの知覚エラーを含む重大な制限を強調し、エージェント中心の視点から改善するための潜在的な手段を示唆しています。
コードはhttps://github.com/csu-jpg/v-mageで入手できます。

要約(オリジナル)

Recent advancements in Multimodal Large Language Models (MLLMs) have led to significant improvements across various multimodal benchmarks. However, as evaluations shift from static datasets to open-world, dynamic environments, current game-based benchmarks remain inadequate because they lack visual-centric tasks and fail to assess the diverse reasoning skills required for real-world decision-making. To address this, we introduce Visual-centric Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five diverse games with 30+ handcrafted levels, testing models on core visual skills such as positioning, trajectory tracking, timing, and visual memory, alongside higher-level reasoning like long-term planning and deliberation. We use V-MAGE to evaluate leading MLLMs, revealing significant challenges in their visual perception and reasoning. In all game environments, the top-performing MLLMs, as determined by Elo rating comparisons, exhibit a substantial performance gap compared to humans. Our findings highlight critical limitations, including various types of perceptual errors made by the models, and suggest potential avenues for improvement from an agent-centric perspective, such as refining agent strategies and addressing perceptual inaccuracies. Code is available at https://github.com/CSU-JPG/V-MAGE.

arxiv情報

著者 Xiangxi Zheng,Linjie Li,Zhengyuan Yang,Ping Yu,Alex Jinpeng Wang,Rui Yan,Yuan Yao,Lijuan Wang
発行日 2025-04-08 15:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models はコメントを受け付けていません