Benchmarking of Different YOLO Models for CAPTCHAs Detection and Classification

要約

このペーパーでは、WebとDarkNetから収集されたデータセット、およびWebページの合成データを使用したWebページCaptchas検出のYolov5、Yolov8、およびYolov10モデルの分析と比較を提供します。
この研究では、ヨロアーキテクチャのナノ(n)、小(s)、および中程度(m)バリアントを調べ、精度、リコール、F1スコア、マップ@50、推論速度などのメトリックを使用して実生活の有用性を決定します。
さらに、実生活のアプリケーションの重要な部分であるため、訓練されたモデルを効率的に検出するために訓練されたモデルを調整する可能性が調べられました。
画像スライス法は、ウェブページ分析の一般的なシナリオとなる可能性のある特大の入力画像の検出メトリックを改善する方法として提案されました。
バージョンNANOのモデルは、速度の点で最高の結果を達成しましたが、より複雑なアーキテクチャは他のメトリックの点でより良く獲得しました。

要約(オリジナル)

This paper provides an analysis and comparison of the YOLOv5, YOLOv8 and YOLOv10 models for webpage CAPTCHAs detection using the datasets collected from the web and darknet as well as synthetized data of webpages. The study examines the nano (n), small (s), and medium (m) variants of YOLO architectures and use metrics such as Precision, Recall, F1 score, mAP@50 and inference speed to determine the real-life utility. Additionally, the possibility of tuning the trained model to detect new CAPTCHA patterns efficiently was examined as it is a crucial part of real-life applications. The image slicing method was proposed as a way to improve the metrics of detection on oversized input images which can be a common scenario in webpages analysis. Models in version nano achieved the best results in terms of speed, while more complexed architectures scored better in terms of other metrics.

arxiv情報

著者 Mikołaj Wysocki,Henryk Gierszal,Piotr Tyczka,Sophia Karagiorgou,George Pantelis
発行日 2025-02-19 14:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking of Different YOLO Models for CAPTCHAs Detection and Classification はコメントを受け付けていません

RSNet: A Light Framework for The Detection of Multi-scale Remote Sensing Targets

要約

深い学習を使用した合成開口レーダー(SAR)船の検出の最近の進歩により、精度と速度が大幅に向上しましたが、パラメーターが少ない複雑な背景の小さなオブジェクトを効果的に検出することは課題です。
この手紙では、SAR画像で船の検出を強化するために構築された軽量フレームワークであるRSNETを紹介します。
より少ないパラメーターで精度を確保するために、Waveletpool-Contextgided(WCG)をバックボーンとして提案し、複雑なシーンで効果的な検出のためにマルチスケールのウェーブレット機能を通じてグローバルなコンテキストの理解を導きました。
さらに、ウェーブレットプール – 整形(WSF)が首として導入され、ネットワーク幅を増やすことなく高次元の非線形特徴を実現するために、残留ウェーブレット要素ごとの乗算構造を使用します。
軽量共有(LS)モジュールは、軽量の共有畳み込み構造とマルチフォーマット互換性を通じて効率的な検出を実現するために、コンポーネントを検出するものとして設計されています。
SAR船の検出データセット(SSDD)および高解像度SAR画像データセット(HRSID)の実験は、RSNETが軽量設計と検出パフォーマンスの強いバランスを達成し、多くの最先端の検出器を上回り、72.5 \%に達することを示しています。
67.6 \%in
\ textbf {\(\ mathbf {map _ {。50:.95}} \)}は、それぞれ1.49mパラメーターを使用します。
私たちのコードはまもなくリリースされます。

要約(オリジナル)

Recent advancements in synthetic aperture radar (SAR) ship detection using deep learning have significantly improved accuracy and speed, yet effectively detecting small objects in complex backgrounds with fewer parameters remains a challenge. This letter introduces RSNet, a lightweight framework constructed to enhance ship detection in SAR imagery. To ensure accuracy with fewer parameters, we proposed Waveletpool-ContextGuided (WCG) as its backbone, guiding global context understanding through multi-scale wavelet features for effective detection in complex scenes. Additionally, Waveletpool-StarFusion (WSF) is introduced as the neck, employing a residual wavelet element-wise multiplication structure to achieve higher dimensional nonlinear features without increasing network width. The Lightweight-Shared (LS) module is designed as detect components to achieve efficient detection through lightweight shared convolutional structure and multi-format compatibility. Experiments on the SAR Ship Detection Dataset (SSDD) and High-Resolution SAR Image Dataset (HRSID) demonstrate that RSNet achieves a strong balance between lightweight design and detection performance, surpassing many state-of-the-art detectors, reaching 72.5\% and 67.6\% in \textbf{\(\mathbf{mAP_{.50:.95}}\) }respectively with 1.49M parameters. Our code will be released soon.

arxiv情報

著者 Hongyu Chen,Chengcheng Chen,Fei Wang,Yuhu Shi,Weiming Zeng
発行日 2025-02-19 14:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | RSNet: A Light Framework for The Detection of Multi-scale Remote Sensing Targets はコメントを受け付けていません

Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning

要約

既存のビデオキャプションメソッドは、オブジェクトの動作の浅いまたは単純な表現を提供するだけであり、表面的で曖昧な説明をもたらします。
ただし、オブジェクトの動作は動的で複雑です。
オブジェクトの動作の本質を包括的にキャプチャするために、動的アクションセマンティックアウェアグラフトランスを提案します。
第一に、マルチスケールの時間モデリングモジュールは、長期的および短期的な潜在アクション機能を柔軟に学習するように設計されています。
時間スケール全体で潜在的なアクション機能を獲得するだけでなく、ローカルな潜在的なアクションの詳細を考慮して、潜在的なアクション表現の一貫性と敏感さを高めます。
第二に、オブジェクトの動作に関連するセマンティック表現を適応的にキャプチャし、アクション表現の豊かさと正確性を高めるために、視覚的なセマンティック認識モジュールが提案されています。
これら2つのモジュールの共同作業を活用することにより、豊富な行動表現を獲得して、人間のような自然な説明を生成することができます。
最後に、この豊富な動作表現とオブジェクト表現を使用して、オブジェクトトランスに供給されてオブジェクトとアクションの間の複雑な時間的依存関係をモデル化するために、時間オブジェクトアクショングラフを構築します。
推論段階に複雑さを追加することを避けるために、オブジェクトの行動知識は、知識の蒸留を通じて単純なネットワークに蒸留されます。
MSVDおよびMSR-VTTデータセットの実験結果は、提案された方法が複数のメトリックにわたって大幅なパフォーマンスの改善を達成することを示しています。

要約(オリジナル)

Existing video captioning methods merely provide shallow or simplistic representations of object behaviors, resulting in superficial and ambiguous descriptions. However, object behavior is dynamic and complex. To comprehensively capture the essence of object behavior, we propose a dynamic action semantic-aware graph transformer. Firstly, a multi-scale temporal modeling module is designed to flexibly learn long and short-term latent action features. It not only acquires latent action features across time scales, but also considers local latent action details, enhancing the coherence and sensitiveness of latent action representations. Secondly, a visual-action semantic aware module is proposed to adaptively capture semantic representations related to object behavior, enhancing the richness and accurateness of action representations. By harnessing the collaborative efforts of these two modules,we can acquire rich behavior representations to generate human-like natural descriptions. Finally, this rich behavior representations and object representations are used to construct a temporal objects-action graph, which is fed into the graph transformer to model the complex temporal dependencies between objects and actions. To avoid adding complexity in the inference phase, the behavioral knowledge of the objects will be distilled into a simple network through knowledge distillation. The experimental results on MSVD and MSR-VTT datasets demonstrate that the proposed method achieves significant performance improvements across multiple metrics.

arxiv情報

著者 Caihua Liu,Xu Li,Wenjing Xue,Wei Tang,Xia Feng
発行日 2025-02-19 14:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning はコメントを受け付けていません

Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

要約

画像の位置を識別するタスクである地理配位には、複雑な推論が必要であり、ナビゲーション、監視、文化的保存に不可欠です。
ただし、現在の方法は、多くの場合、粗く、不正確な、および解釈できないローカリゼーションを生成します。
主要な課題は、既存のジオロケーションデータセットの品質と規模にあります。
これらのデータセットは通常、小規模で自動的に構築されているため、騒々しいデータと一貫性のないタスクの難易度が発生し、回答が簡単すぎるか、信頼できる推論のための十分な手がかりがない画像があります。
これらの課題に対処するために、3つの重要なコンポーネントを備えた包括的なジオロケーションフレームワークを紹介します。GeoComp、大規模なデータセット。
GeoCot、斬新な推論方法。
そして、ジオヴァルは、重要な課題に対処し、地球採点研究の進歩を促進するように集合的に設計されています。
このフレームワークの中核は、2年間にわたって740Kユーザーが関与するジオロケーションゲームプラットフォームから収集された大規模なデータセットであるGeoComp(Geolocation Competition Dataset)です。
それは、2500万のメタデータと300万の地球タグ付きの場所で構成されており、各場所は人間のユーザーによって数千から数万回注釈を付けました。
データセットは、詳細な分析のために多様な難易度レベルを提供し、現在のモデルの重要なギャップを強調しています。
このデータセットに基づいて、地理的なチェーン(GeoCot)を提案します。これは、地理的視力モデル(LVM)の推論機能を強化するために設計された新しいマルチステップ推論フレームワークです。
GeoCotは、人間の地理的推論を模倣するマルチステッププロセスを通じて、コンテキストと空間の手がかりを統合することにより、パフォーマンスを向上させます。
最後に、Geoevalメトリックを使用して、GeoCotが解釈可能性を向上させながら、ジオロケーションの精度を最大25%増加させることを実証します。

要約(オリジナル)

Geolocation, the task of identifying an image’s location, requires complex reasoning and is crucial for navigation, monitoring, and cultural preservation. However, current methods often produce coarse, imprecise, and non-interpretable localization. A major challenge lies in the quality and scale of existing geolocation datasets. These datasets are typically small-scale and automatically constructed, leading to noisy data and inconsistent task difficulty, with images that either reveal answers too easily or lack sufficient clues for reliable inference. To address these challenges, we introduce a comprehensive geolocation framework with three key components: GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval, an evaluation metric, collectively designed to address critical challenges and drive advancements in geolocation research. At the core of this framework is GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from a geolocation game platform involving 740K users over two years. It comprises 25 million entries of metadata and 3 million geo-tagged locations spanning much of the globe, with each location annotated thousands to tens of thousands of times by human users. The dataset offers diverse difficulty levels for detailed analysis and highlights key gaps in current models. Building on this dataset, we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning framework designed to enhance the reasoning capabilities of Large Vision Models (LVMs) in geolocation tasks. GeoCoT improves performance by integrating contextual and spatial cues through a multi-step process that mimics human geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing interpretability.

arxiv情報

著者 Zirui Song,Jingpu Yang,Yuan Huang,Jonathan Tonglet,Zeyu Zhang,Tao Cheng,Meng Fang,Iryna Gurevych,Xiuying Chen
発行日 2025-02-19 14:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework はコメントを受け付けていません

An Overall Real-Time Mechanism for Classification and Quality Evaluation of Rice

要約

米は世界で最も広く栽培されている作物の1つであり、多くの品種に発展しています。
栽培中の米の品質は、主にその品種と特性によって決定されます。
伝統的に、米の分類と品質評価は手動の目視検査に依存しています。これは、時間がかかり、エラーが発生しやすいプロセスです。
ただし、マシンビジョンテクノロジーの進歩により、その品種と特性に基づいた米の分類と品質評価の自動化がますます実行可能になり、精度と効率の両方を向上させています。
この研究では、包括的なイネ粒評価のためのリアルタイム評価メカニズム、1段階のオブジェクト検出アプローチ、深い畳み込みニューラルネットワーク、および従来の機械学習技術の統合を提案しています。
提案されたフレームワークにより、米の種類の識別、穀物の完全性のグレーディング、および穀物の重濃度の評価が可能になります。
この研究で使用されている米粒データセットは、中国で広く栽培された6つの米品種からの約20,000枚の画像で構成されています。
実験結果は、提案されたメカニズムが、オブジェクト検出タスクで99.14%の平均平均精度(MAP)と分類タスクで97.89%の精度を達成することを示しています。
さらに、このフレームワークは、同じ米の品種内で穀物完全性グレーディングで97.56%の平均精度を達成し、効果的な品質評価システムに貢献しています。

要約(オリジナル)

Rice is one of the most widely cultivated crops globally and has been developed into numerous varieties. The quality of rice during cultivation is primarily determined by its cultivar and characteristics. Traditionally, rice classification and quality assessment rely on manual visual inspection, a process that is both time-consuming and prone to errors. However, with advancements in machine vision technology, automating rice classification and quality evaluation based on its cultivar and characteristics has become increasingly feasible, enhancing both accuracy and efficiency. This study proposes a real-time evaluation mechanism for comprehensive rice grain assessment, integrating a one-stage object detection approach, a deep convolutional neural network, and traditional machine learning techniques. The proposed framework enables rice variety identification, grain completeness grading, and grain chalkiness evaluation. The rice grain dataset used in this study comprises approximately 20,000 images from six widely cultivated rice varieties in China. Experimental results demonstrate that the proposed mechanism achieves a mean average precision (mAP) of 99.14% in the object detection task and an accuracy of 97.89% in the classification task. Furthermore, the framework attains an average accuracy of 97.56% in grain completeness grading within the same rice variety, contributing to an effective quality evaluation system.

arxiv情報

著者 Wanke Xia,Ruxin Peng,Haoqi Chu,Xinlei Zhu,Zhiyu Yang,Yaojun Wang
発行日 2025-02-19 14:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | An Overall Real-Time Mechanism for Classification and Quality Evaluation of Rice はコメントを受け付けていません

From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education

要約

GPT-4などの大規模な言語モデル(LLM)は、GSM8Kなどのベンチマークでほぼ完璧なパフォーマンスを達成する印象的な数学的推論能力を実証しています。
ただし、個別の教育への適用は、エラーの診断とフィードバックの生成に対する正しさの強調過剰のために限られたままです。
現在のモデルは、学生の間違いの原因について有意義な洞察を提供することができず、教育的文脈での有用性を制限しています。
これらの課題に対処するために、3つの重要な貢献を提示します。
まず、\ textBf {mathccs}(数学的分類と建設的な提案)を紹介します。これは、系統的エラー分析とカスタマイズされたフィードバックのために設計されたマルチモーダルベンチマークです。
Mathccsには、実際の問題、専門家が解決したエラーカテゴリ、および縦断的な学生データが含まれます。
\ textit {qwen2-vl}、\ textit {llava-ov}、\ textit {claude-3.5-sonnet}、\ textit {gpt-4o}を含む最先端のモデルの評価{gpt-4o}は、達成されていないことを明らかにします
30 \%を超える分類精度または高品質の提案(4/10未満の平均スコア)を生成し、からの大きなギャップを強調しています
人間レベルのパフォーマンス。
第二に、トレンドを追跡し、診断精度を改善するために履歴データを活用する順次エラー分析フレームワークを開発します。
最後に、履歴分析のための時系列エージェントを組み合わせたマルチエージェント共同フレームワークと、リアルタイムの改良、エラー分類とフィードバック生成を強化するためのMLLMエージェントを組み合わせたものを提案します。
一緒に、これらの貢献は、パーソナライズされた教育を進めるための堅牢なプラットフォームを提供し、現在のAI能力と現実世界の教育の要求との間のギャップを埋めることができます。

要約(オリジナル)

Large Language Models (LLMs), such as GPT-4, have demonstrated impressive mathematical reasoning capabilities, achieving near-perfect performance on benchmarks like GSM8K. However, their application in personalized education remains limited due to an overemphasis on correctness over error diagnosis and feedback generation. Current models fail to provide meaningful insights into the causes of student mistakes, limiting their utility in educational contexts. To address these challenges, we present three key contributions. First, we introduce \textbf{MathCCS} (Mathematical Classification and Constructive Suggestions), a multi-modal benchmark designed for systematic error analysis and tailored feedback. MathCCS includes real-world problems, expert-annotated error categories, and longitudinal student data. Evaluations of state-of-the-art models, including \textit{Qwen2-VL}, \textit{LLaVA-OV}, \textit{Claude-3.5-Sonnet} and \textit{GPT-4o}, reveal that none achieved classification accuracy above 30\% or generated high-quality suggestions (average scores below 4/10), highlighting a significant gap from human-level performance. Second, we develop a sequential error analysis framework that leverages historical data to track trends and improve diagnostic precision. Finally, we propose a multi-agent collaborative framework that combines a Time Series Agent for historical analysis and an MLLM Agent for real-time refinement, enhancing error classification and feedback generation. Together, these contributions provide a robust platform for advancing personalized education, bridging the gap between current AI capabilities and the demands of real-world teaching.

arxiv情報

著者 Yi-Fan Zhang,Hang Li,Dingjie Song,Lichao Sun,Tianlong Xu,Qingsong Wen
発行日 2025-02-19 14:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education はコメントを受け付けていません

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約

視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊かに理解してモデルを装備していますが、この統合は敵対的な攻撃に対して新しい脆弱性も導入します。
この論文では、時間的およびモダリティ固有の脆弱性の両方を考慮して、視聴覚モデルの敵対的な堅牢性に関する包括的な研究を提示します。
2つの強力な敵対的攻撃を提案します。1)連続した時間セグメントにわたって固有の時間的冗長性を活用する時間的不変攻撃と2)音声と視覚モダリティの不一致をもたらすモダリティの不整合攻撃。
これらの攻撃は、多様な脅威に対する視聴覚モデルの堅牢性を徹底的に評価するように設計されています。
さらに、このような攻撃から防御するために、新しい視聴覚敵の敵対的訓練フレームワークを紹介します。
このフレームワークは、マルチモーダルデータと敵対的なカリキュラム戦略に合わせて調整された効率的な敵対的な摂動クラフトを組み込むことにより、バニラ敵対的訓練における重要な課題に対処します。
速度論的サウンドデータセットでの広範な実験は、モデルのパフォーマンスを低下させるために提案されている時間的およびモダリティベースの攻撃が最先端のパフォーマンスを達成できることを示していますが、敵対的なトレーニングの防御により、敵対的な訓練効率性が大幅に改善されることが示されています。

要約(オリジナル)

While audio-visual learning equips models with a richer understanding of the real world by leveraging multiple sensory modalities, this integration also introduces new vulnerabilities to adversarial attacks. In this paper, we present a comprehensive study of the adversarial robustness of audio-visual models, considering both temporal and modality-specific vulnerabilities. We propose two powerful adversarial attacks: 1) a temporal invariance attack that exploits the inherent temporal redundancy across consecutive time segments and 2) a modality misalignment attack that introduces incongruence between the audio and visual modalities. These attacks are designed to thoroughly assess the robustness of audio-visual models against diverse threats. Furthermore, to defend against such attacks, we introduce a novel audio-visual adversarial training framework. This framework addresses key challenges in vanilla adversarial training by incorporating efficient adversarial perturbation crafting tailored to multi-modal data and an adversarial curriculum strategy. Extensive experiments in the Kinetics-Sounds dataset demonstrate that our proposed temporal and modality-based attacks in degrading model performance can achieve state-of-the-art performance, while our adversarial training defense largely improves the adversarial robustness as well as the adversarial training efficiency.

arxiv情報

著者 Zeliang Zhang,Susan Liang,Daiki Shimada,Chenliang Xu
発行日 2025-02-19 15:04:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD | Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives はコメントを受け付けていません

3D Gaussian Splatting aided Localization for Large and Complex Indoor-Environments

要約

視覚的ローカリゼーションの分野は数十年にわたって研究されており、その間に多くの実用的なアプリケーションが見つかりました。
この分野では強い進歩にもかかわらず、確立された方法が失敗する状況はまだ困難です。
レンダリングされた画像を追加することにより、確立された視覚的ローカリゼーション方法の精度と信頼性を大幅に改善するアプローチを提示します。
詳細には、最初に、参照データを作成するために3Dガウススプラッティング(3DG)ベースのマップを提供する最新のビジュアルスラムアプローチを使用します。
ランダムにサンプリングされたポーズで3DGSからレンダリングされた画像を使用して参照データを濃縮すると、ジオメトリベースの視覚的ローカリゼーションとシーン座標回帰(SCR)メソッドの両方のパフォーマンスが大幅に向上することを実証します。
大規模な産業環境での包括的な評価を通じて、これらの追加のレンダリングされたビューを組み込むことのパフォーマンスへの影響を分析します。

要約(オリジナル)

The field of visual localization has been researched for several decades and has meanwhile found many practical applications. Despite the strong progress in this field, there are still challenging situations in which established methods fail. We present an approach to significantly improve the accuracy and reliability of established visual localization methods by adding rendered images. In detail, we first use a modern visual SLAM approach that provides a 3D Gaussian Splatting (3DGS) based map to create reference data. We demonstrate that enriching reference data with images rendered from 3DGS at randomly sampled poses significantly improves the performance of both geometry-based visual localization and Scene Coordinate Regression (SCR) methods. Through comprehensive evaluation in a large industrial environment, we analyze the performance impact of incorporating these additional rendered views.

arxiv情報

著者 Vincent Ress,Jonas Meyer,Wei Zhang,David Skuddis,Uwe Soergel,Norbert Haala
発行日 2025-02-19 15:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3D Gaussian Splatting aided Localization for Large and Complex Indoor-Environments はコメントを受け付けていません

ChineseSimpleVQA — ‘See the World, Discover Knowledge’: A Chinese Factuality Evaluation for Large Vision Language Models

要約

大規模なビジョン言語モデル(LVLMS)における事実上の精度の評価は、急速な発展に遅れをとっており、これらのモデルの知識能力と信頼性を完全に反映することが困難になっています。
この論文では、8つの主要なトピックと56のサブトピックにわたるLVLMSの視覚的事実性を評価することを目的とした中国語で、中国語で最初の事実に基づいた視覚的質問ベンチマークを紹介します。
このベンチマークの主な機能には、中国語に焦点を当て、多様な知識タイプ、マルチホップの質問構築、高品質のデータ、静的な一貫性、および短い回答を通じて簡単に評価できることが含まれます。
さらに、厳格なデータ構築パイプラインを提供し、視覚的事実を2つの部分に分離します。世界を見る(つまり、オブジェクト認識)と知識を発見します。
この分離により、LVLMSの機能境界と実行メカニズムを分析できます。
その後、34の高度なオープンソースとクローズドソースモデルを評価し、このフィールド内の重要なパフォーマンスギャップを明らかにします。

要約(オリジナル)

The evaluation of factual accuracy in large vision language models (LVLMs) has lagged behind their rapid development, making it challenging to fully reflect these models’ knowledge capacity and reliability. In this paper, we introduce the first factuality-based visual question-answering benchmark in Chinese, named ChineseSimpleVQA, aimed at assessing the visual factuality of LVLMs across 8 major topics and 56 subtopics. The key features of this benchmark include a focus on the Chinese language, diverse knowledge types, a multi-hop question construction, high-quality data, static consistency, and easy-to-evaluate through short answers. Moreover, we contribute a rigorous data construction pipeline and decouple the visual factuality into two parts: seeing the world (i.e., object recognition) and discovering knowledge. This decoupling allows us to analyze the capability boundaries and execution mechanisms of LVLMs. Subsequently, we evaluate 34 advanced open-source and closed-source models, revealing critical performance gaps within this field.

arxiv情報

著者 Jihao Gu,Yingyao Wang,Pi Bu,Chen Wang,Ziming Wang,Tengtao Song,Donglai Wei,Jiale Yuan,Yingxiu Zhao,Yancheng He,Shilong Li,Jiaheng Liu,Meng Cao,Jun Song,Yingshui Tan,Xiang Li,Wenbo Su,Zhicheng Zheng,Xiaoyong Zhu,Bo Zheng
発行日 2025-02-19 15:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ChineseSimpleVQA — ‘See the World, Discover Knowledge’: A Chinese Factuality Evaluation for Large Vision Language Models はコメントを受け付けていません

MGFI-Net: A Multi-Grained Feature Integration Network for Enhanced Medical Image Segmentation

要約

医療画像セグメンテーションは、さまざまな臨床応用で重要な役割を果たしています。
医療画像のセグメンテーションにおける主要な課題は、騒音、低コントラスト、または複雑な解剖学的構造の存在下で関心のある領域の正確な描写を達成することです。
既存のセグメンテーションモデルは、多くの場合、マルチグレイン情報の統合を無視し、正確なセグメンテーションにとって重要なエッジの詳細を維持できません。
これらの課題に対処するために、マルチグレインフィーチャーインテグレーションネットワーク(MGFI-NET)と呼ばれる新しい画像セマンティックセグメンテーションモデルを提案します。
当社のMGFI-NETは、これらの問題に取り組むために2つの専用モジュールで設計されています。
まず、セグメンテーションの精度を高めるために、多粒の特徴抽出モジュールを導入します。これは、異なる機能スケール間の階層的な関係を活用して、最も関連性の高い情報に選択的に焦点を当てます。
第二に、エッジの詳細を保持するために、境界情報を効果的に保持および統合してセグメンテーション結果を改善するエッジ強化モジュールを組み込みます。
広範な実験は、MGFI-NETがセグメンテーションの精度の点で最先端の方法を上回るだけでなく、優れた時間効率を達成し、リアルタイムの医療画像セグメンテーションの主要なソリューションとして確立することを示しています。

要約(オリジナル)

Medical image segmentation plays a crucial role in various clinical applications. A major challenge in medical image segmentation is achieving accurate delineation of regions of interest in the presence of noise, low contrast, or complex anatomical structures. Existing segmentation models often neglect the integration of multi-grained information and fail to preserve edge details, which are critical for precise segmentation. To address these challenges, we propose a novel image semantic segmentation model called the Multi-Grained Feature Integration Network (MGFI-Net). Our MGFI-Net is designed with two dedicated modules to tackle these issues. First, to enhance segmentation accuracy, we introduce a Multi-Grained Feature Extraction Module, which leverages hierarchical relationships between different feature scales to selectively focus on the most relevant information. Second, to preserve edge details, we incorporate an Edge Enhancement Module that effectively retains and integrates boundary information to refine segmentation results. Extensive experiments demonstrate that MGFI-Net not only outperforms state-of-the-art methods in terms of segmentation accuracy but also achieves superior time efficiency, establishing it as a leading solution for real-time medical image segmentation.

arxiv情報

著者 Yucheng Zeng
発行日 2025-02-19 15:24:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | MGFI-Net: A Multi-Grained Feature Integration Network for Enhanced Medical Image Segmentation はコメントを受け付けていません