Spherical Dense Text-to-Image Synthesis

要約

テキストから画像への最近の進歩(T2I)は合成結果を改善しましたが、レイアウト制御と全方向性パノラマ画像の生成には課題が残っています。
高密度T2I(DT2I)および球形T2I(ST2I)モデルはこれらの問題に対処していますが、これまでのところ統一されたアプローチは存在しません。
DT2Iモデルにパノラマを生成するように促すなど、些細なアプローチは、境界で適切な球形の歪みやシームレスな遷移を生成することはできません。
私たちの研究は、球状の密なテキストからイメージ(SDT2I)が、微調整されたPanoramaモデルにトレーニングのないDT2Iアプローチを統合することで実現できることを示しています。
具体的には、それぞれMultiStitchDiffusion(MSTD)とMultiPanFusion(MPF)を提案し、それぞれMultidiffusionをStitchDiffusionとPanFusionに統合します。
SDT2Iのベンチマークは存在しないため、モデルを評価するための球面レイアウトを含む新しい合成データセットである密な合成観点(DSYNVIEW)をさらに構築します。
私たちの結果は、MSTDが画質と迅速な順守とレイアウトの順守を超えてMPFを上回ることを示しています。
MultiPanFusionはより多様な画像を生成しますが、完璧な前景オブジェクトを合成するのに苦労しています。
私たちは、MPFの改善として、前景での等電子視点からの注意をオフにするブートストラップ結合とオフを提案します。

要約(オリジナル)

Recent advancements in text-to-image (T2I) have improved synthesis results, but challenges remain in layout control and generating omnidirectional panoramic images. Dense T2I (DT2I) and spherical T2I (ST2I) models address these issues, but so far no unified approach exists. Trivial approaches, like prompting a DT2I model to generate panoramas can not generate proper spherical distortions and seamless transitions at the borders. Our work shows that spherical dense text-to-image (SDT2I) can be achieved by integrating training-free DT2I approaches into finetuned panorama models. Specifically, we propose MultiStitchDiffusion (MSTD) and MultiPanFusion (MPF) by integrating MultiDiffusion into StitchDiffusion and PanFusion, respectively. Since no benchmark for SDT2I exists, we further construct Dense-Synthetic-View (DSynView), a new synthetic dataset containing spherical layouts to evaluate our models. Our results show that MSTD outperforms MPF across image quality as well as prompt- and layout adherence. MultiPanFusion generates more diverse images but struggles to synthesize flawless foreground objects. We propose bootstrap-coupling and turning off equirectangular perspective-projection attention in the foreground as an improvement of MPF.

arxiv情報

著者 Timon Winter,Stanislav Frolov,Brian Bernhard Moser,Andreas Dengel
発行日 2025-02-19 13:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spherical Dense Text-to-Image Synthesis はコメントを受け付けていません

Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention

要約

畳み込みネットワーク、トランス、ハイブリッドモデル、およびMambaベースのアーキテクチャは、さまざまな医療画像分類タスクで強力なパフォーマンスを実証しています。
ただし、これらの方法は、主にラベル付きデータを使用してクリーン画像を分類するように設計されています。
対照的に、実際の臨床データには、多くの場合、マルチセンター研究に固有の画像腐敗が含まれ、メーカー全体のイメージング機器のバリエーションに由来します。
このホワイトペーパーでは、一般化された医療画像分類を目指して、Kolmogorov-Arnold Network(Kan)層を初めて変圧器アーキテクチャに組み込んだ新しいアーキテクチャであるMedical Vision Transformer(MedVitv2)を紹介します。
元のMedVitの精度を高めながら、計算負荷を減らすための効率的なKanブロックを開発しました。
さらに、メドビットの脆弱性を拡大したときに、強化された拡張近隣の注意(DINA)、グローバルなコンテキストをキャプチャし、受容フィールドを拡大してモデルを効果的かつ拡大できる拡張ドットプロダクト注意カーネルの適応を提案します。
機能の崩壊の問題に対処します。
さらに、階層的なハイブリッド戦略が導入され、ローカル機能の知覚とグローバルな特徴の知覚ブロックを効率的な方法で積み重ね、ローカルおよびグローバルな特徴の知覚をバランスしてパフォーマンスを高めます。
17の医療画像分類データセットと12の破損した医療画像データセットに関する広範な実験は、MedVitv2が計算の複雑さを減らした29の実験のうち27で最先端の結果を達成したことを示しています。
MedVitv2は、以前のバージョンよりも計算上効率が高く、精度を大幅に向上させ、MedMnistで4.6 \%、非ムニストで5.8 \%、MedMnist-C Benchmarkで13.4 \%の改善を達成します。

要約(オリジナル)

Convolutional networks, transformers, hybrid models, and Mamba-based architectures have demonstrated strong performance across various medical image classification tasks. However, these methods were primarily designed to classify clean images using labeled data. In contrast, real-world clinical data often involve image corruptions that are unique to multi-center studies and stem from variations in imaging equipment across manufacturers. In this paper, we introduce the Medical Vision Transformer (MedViTV2), a novel architecture incorporating Kolmogorov-Arnold Network (KAN) layers into the transformer architecture for the first time, aiming for generalized medical image classification. We have developed an efficient KAN block to reduce computational load while enhancing the accuracy of the original MedViT. Additionally, to counteract the fragility of our MedViT when scaled up, we propose an enhanced Dilated Neighborhood Attention (DiNA), an adaptation of the efficient fused dot-product attention kernel capable of capturing global context and expanding receptive fields to scale the model effectively and addressing feature collapse issues. Moreover, a hierarchical hybrid strategy is introduced to stack our Local Feature Perception and Global Feature Perception blocks in an efficient manner, which balances local and global feature perceptions to boost performance. Extensive experiments on 17 medical image classification datasets and 12 corrupted medical image datasets demonstrate that MedViTV2 achieved state-of-the-art results in 27 out of 29 experiments with reduced computational complexity. MedViTV2 is 44\% more computationally efficient than the previous version and significantly enhances accuracy, achieving improvements of 4.6\% on MedMNIST, 5.8\% on NonMNIST, and 13.4\% on the MedMNIST-C benchmark.

arxiv情報

著者 Omid Nejati Manzari,Hojat Asgariandehkordi,Taha Koleilat,Yiming Xiao,Hassan Rivaz
発行日 2025-02-19 13:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention はコメントを受け付けていません

Event-Based Video Frame Interpolation With Cross-Modal Asymmetric Bidirectional Motion Fields

要約

ビデオフレーム補間(VFI)は、連続した入力フレーム間で中間ビデオフレームを生成することを目的としています。
イベントカメラは、輝度のみをエンコードするマイクロ秒の時間分解能でのみ変化するバイオインスパイアセンサーであるため、いくつかの作品はイベントカメラを利用してVFIのパフォーマンスを向上させました。
ただし、既存の方法では、イベントまたは近似のみを備えた双方向間モーションフィールドを推定します。これは、実際のシナリオでは複雑なモーションを考慮することはできません。
このホワイトペーパーでは、非対称双方向の動きのフィールド推定を備えた新しいイベントベースのVFIフレームワークを提案します。
詳細には、EIF-BiofNetは、近似方法なしでフレーム間モーションフィールドを直接推定するために、イベントと画像の各貴重な特性を利用しています。
さらに、相補的な注意ベースのフレーム合成ネットワークを開発して、相補的なワーピングベースと合成ベースの機能を効率的に活用します。
最後に、以前のイベントベースのVFIデータセットの制限を克服するために、高いフレームレート、極端な動き、動的テクスチャを備えた、大規模なイベントベースのVFIデータセット、ERF-X170FPSを構築します。
大規模な実験結果は、さまざまなデータセットで最先端のVFIメソッドよりも、この方法が大幅にパフォーマンス改善を示していることを検証します。
プロジェクトページは、https://github.com/intelpro/cbmnetで入手できます

要約(オリジナル)

Video Frame Interpolation (VFI) aims to generate intermediate video frames between consecutive input frames. Since the event cameras are bio-inspired sensors that only encode brightness changes with a micro-second temporal resolution, several works utilized the event camera to enhance the performance of VFI. However, existing methods estimate bidirectional inter-frame motion fields with only events or approximations, which can not consider the complex motion in real-world scenarios. In this paper, we propose a novel event-based VFI framework with cross-modal asymmetric bidirectional motion field estimation. In detail, our EIF-BiOFNet utilizes each valuable characteristic of the events and images for direct estimation of inter-frame motion fields without any approximation methods. Moreover, we develop an interactive attention-based frame synthesis network to efficiently leverage the complementary warping-based and synthesis-based features. Finally, we build a large-scale event-based VFI dataset, ERF-X170FPS, with a high frame rate, extreme motion, and dynamic textures to overcome the limitations of previous event-based VFI datasets. Extensive experimental results validate that our method shows significant performance improvement over the state-of-the-art VFI methods on various datasets. Our project pages are available at: https://github.com/intelpro/CBMNet

arxiv情報

著者 Taewoo Kim,Yujeong Chae,Hyun-Kurl Jang,Kuk-Jin Yoon
発行日 2025-02-19 13:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Event-Based Video Frame Interpolation With Cross-Modal Asymmetric Bidirectional Motion Fields はコメントを受け付けていません

CARE: Confidence-Aware Regression Estimation of building density fine-tuning EO Foundation Models

要約

正確な信頼性の定量化と評価を実行することは、深いニューラルネットワークが障害を予測し、パフォーマンスを向上させ、実際のアプリケーションでの能力を向上させ、実生活での実用的な展開のために重要です。
ピクセルごとの回帰タスクの場合、セマンティックセグメンテーションなどの分類タスクとは対照的に、文献では信頼の定量化と評価は十分に対処されていません。
ソフトマックス出力層は、ピクセルごとの回帰問題を解決する深いニューラルネットワークでは使用されません。
この論文では、これらの問題に対処するために、提案されたモデル信頼認識回帰推定(CARE)を開発、訓練、評価します。
モデルケアは、回帰出力の結果に自信を計算して割り当てます。
地球観測のためのAIファンデーションモデル(EO)の下流タスクとして回帰問題を解決することに焦点を当てています。
建物の密度を推定するためのコペルニクスセンチネル-2衛星星座からのデータに関するモデルケアと実験結果を評価します。提案された方法が回帰問題に正常に適用できることを示しています。
また、アプローチが他の方法よりも優れていることも示しています。

要約(オリジナル)

Performing accurate confidence quantification and assessment is important for deep neural networks to predict their failures, improve their performance and enhance their capabilities in real-world applications, for their practical deployment in real life. For pixel-wise regression tasks, confidence quantification and assessment has not been well addressed in the literature, in contrast to classification tasks like semantic segmentation. The softmax output layer is not used in deep neural networks that solve pixel-wise regression problems. In this paper, to address these problems, we develop, train and evaluate the proposed model Confidence-Aware Regression Estimation (CARE). Our model CARE computes and assigns confidence to regression output results. We focus on solving regression problems as downstream tasks of an AI Foundation Model for Earth Observation (EO). We evaluate the proposed model CARE and experimental results on data from the Copernicus Sentinel-2 satellite constellation for estimating the density of buildings show that the proposed method can be successfully applied to regression problems. We also show that our approach outperforms other methods.

arxiv情報

著者 Nikolaos Dionelis,Jente Bosmans,Nicolas Longépé
発行日 2025-02-19 14:02:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | CARE: Confidence-Aware Regression Estimation of building density fine-tuning EO Foundation Models はコメントを受け付けていません

Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation

要約

既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、特定のニュースコンテンツが偽物として識別される理由は明らかではありません。
適切な説明がなければ、エンドユーザーは偽のニュースの潜在的な意味を理解できない場合があります。
したがって、ニュースビデオの虚偽を明らかにする自然言語の説明を生成するために、新しいニュースビデオの説明(FNVE)を提案します。
この目的のために、私たちは最初に、偽のニュースビデオ投稿を説明するために2つの新しいデータセットであるOnveとVTSEを開発しました。
次に、onveとvtseのベンチマークにマルチモーダル関係グラフトランス(MRGT)モデルを提案します。
MRGTは、マルチモーダル関係を包括的に表すためにマルチモーダル関係グラフを導入し、世代を説明するためにBARTベースのデコーダーを導入します。
実験結果は、提案されたMRGTが強力なベースラインよりも優れていることを示しています。
さらに、注釈付きのOnveおよびVTSEに関する人間の評価も、妥当性の評価の点で高いスコアを達成しています。

要約(オリジナル)

Although existing methods have addressed fake news video detection as a classification problem, it is not clear why certain news content is identified as fake. Without proper explanation, end users may not be able to understand the potential meaning of fake news. Therefore, we propose a novel task, Fake News Video Explanation (FNVE), to generate natural language explanations that reveal the falseness of news videos. To this end, we first developed ONVE and VTSE, two new datasets to explain fake news video posts. Then, we propose a Multimodal Relation Graph Transformer (MRGT) model to benchmark ONVE and VTSE. MRGT introduces a multimodal relation graph to comprehensively represent multimodal relations and then introduces a BART-based decoder to explain generations. The experimental results show that the proposed MRGT outperforms the strong baselines. In addition, the human evaluation on the annotated ONVE and VTSE also achieves high scores in terms of adequacy rating.

arxiv情報

著者 Lizhi Chen,Zhong Qian,Peifeng Li,Qiaoming Zhu
発行日 2025-02-19 14:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation はコメントを受け付けていません

Benchmarking of Different YOLO Models for CAPTCHAs Detection and Classification

要約

このペーパーでは、WebとDarkNetから収集されたデータセット、およびWebページの合成データを使用したWebページCaptchas検出のYolov5、Yolov8、およびYolov10モデルの分析と比較を提供します。
この研究では、ヨロアーキテクチャのナノ(n)、小(s)、および中程度(m)バリアントを調べ、精度、リコール、F1スコア、マップ@50、推論速度などのメトリックを使用して実生活の有用性を決定します。
さらに、実生活のアプリケーションの重要な部分であるため、訓練されたモデルを効率的に検出するために訓練されたモデルを調整する可能性が調べられました。
画像スライス法は、ウェブページ分析の一般的なシナリオとなる可能性のある特大の入力画像の検出メトリックを改善する方法として提案されました。
バージョンNANOのモデルは、速度の点で最高の結果を達成しましたが、より複雑なアーキテクチャは他のメトリックの点でより良く獲得しました。

要約(オリジナル)

This paper provides an analysis and comparison of the YOLOv5, YOLOv8 and YOLOv10 models for webpage CAPTCHAs detection using the datasets collected from the web and darknet as well as synthetized data of webpages. The study examines the nano (n), small (s), and medium (m) variants of YOLO architectures and use metrics such as Precision, Recall, F1 score, mAP@50 and inference speed to determine the real-life utility. Additionally, the possibility of tuning the trained model to detect new CAPTCHA patterns efficiently was examined as it is a crucial part of real-life applications. The image slicing method was proposed as a way to improve the metrics of detection on oversized input images which can be a common scenario in webpages analysis. Models in version nano achieved the best results in terms of speed, while more complexed architectures scored better in terms of other metrics.

arxiv情報

著者 Mikołaj Wysocki,Henryk Gierszal,Piotr Tyczka,Sophia Karagiorgou,George Pantelis
発行日 2025-02-19 14:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking of Different YOLO Models for CAPTCHAs Detection and Classification はコメントを受け付けていません

RSNet: A Light Framework for The Detection of Multi-scale Remote Sensing Targets

要約

深い学習を使用した合成開口レーダー(SAR)船の検出の最近の進歩により、精度と速度が大幅に向上しましたが、パラメーターが少ない複雑な背景の小さなオブジェクトを効果的に検出することは課題です。
この手紙では、SAR画像で船の検出を強化するために構築された軽量フレームワークであるRSNETを紹介します。
より少ないパラメーターで精度を確保するために、Waveletpool-Contextgided(WCG)をバックボーンとして提案し、複雑なシーンで効果的な検出のためにマルチスケールのウェーブレット機能を通じてグローバルなコンテキストの理解を導きました。
さらに、ウェーブレットプール – 整形(WSF)が首として導入され、ネットワーク幅を増やすことなく高次元の非線形特徴を実現するために、残留ウェーブレット要素ごとの乗算構造を使用します。
軽量共有(LS)モジュールは、軽量の共有畳み込み構造とマルチフォーマット互換性を通じて効率的な検出を実現するために、コンポーネントを検出するものとして設計されています。
SAR船の検出データセット(SSDD)および高解像度SAR画像データセット(HRSID)の実験は、RSNETが軽量設計と検出パフォーマンスの強いバランスを達成し、多くの最先端の検出器を上回り、72.5 \%に達することを示しています。
67.6 \%in
\ textbf {\(\ mathbf {map _ {。50:.95}} \)}は、それぞれ1.49mパラメーターを使用します。
私たちのコードはまもなくリリースされます。

要約(オリジナル)

Recent advancements in synthetic aperture radar (SAR) ship detection using deep learning have significantly improved accuracy and speed, yet effectively detecting small objects in complex backgrounds with fewer parameters remains a challenge. This letter introduces RSNet, a lightweight framework constructed to enhance ship detection in SAR imagery. To ensure accuracy with fewer parameters, we proposed Waveletpool-ContextGuided (WCG) as its backbone, guiding global context understanding through multi-scale wavelet features for effective detection in complex scenes. Additionally, Waveletpool-StarFusion (WSF) is introduced as the neck, employing a residual wavelet element-wise multiplication structure to achieve higher dimensional nonlinear features without increasing network width. The Lightweight-Shared (LS) module is designed as detect components to achieve efficient detection through lightweight shared convolutional structure and multi-format compatibility. Experiments on the SAR Ship Detection Dataset (SSDD) and High-Resolution SAR Image Dataset (HRSID) demonstrate that RSNet achieves a strong balance between lightweight design and detection performance, surpassing many state-of-the-art detectors, reaching 72.5\% and 67.6\% in \textbf{\(\mathbf{mAP_{.50:.95}}\) }respectively with 1.49M parameters. Our code will be released soon.

arxiv情報

著者 Hongyu Chen,Chengcheng Chen,Fei Wang,Yuhu Shi,Weiming Zeng
発行日 2025-02-19 14:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | RSNet: A Light Framework for The Detection of Multi-scale Remote Sensing Targets はコメントを受け付けていません

Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning

要約

既存のビデオキャプションメソッドは、オブジェクトの動作の浅いまたは単純な表現を提供するだけであり、表面的で曖昧な説明をもたらします。
ただし、オブジェクトの動作は動的で複雑です。
オブジェクトの動作の本質を包括的にキャプチャするために、動的アクションセマンティックアウェアグラフトランスを提案します。
第一に、マルチスケールの時間モデリングモジュールは、長期的および短期的な潜在アクション機能を柔軟に学習するように設計されています。
時間スケール全体で潜在的なアクション機能を獲得するだけでなく、ローカルな潜在的なアクションの詳細を考慮して、潜在的なアクション表現の一貫性と敏感さを高めます。
第二に、オブジェクトの動作に関連するセマンティック表現を適応的にキャプチャし、アクション表現の豊かさと正確性を高めるために、視覚的なセマンティック認識モジュールが提案されています。
これら2つのモジュールの共同作業を活用することにより、豊富な行動表現を獲得して、人間のような自然な説明を生成することができます。
最後に、この豊富な動作表現とオブジェクト表現を使用して、オブジェクトトランスに供給されてオブジェクトとアクションの間の複雑な時間的依存関係をモデル化するために、時間オブジェクトアクショングラフを構築します。
推論段階に複雑さを追加することを避けるために、オブジェクトの行動知識は、知識の蒸留を通じて単純なネットワークに蒸留されます。
MSVDおよびMSR-VTTデータセットの実験結果は、提案された方法が複数のメトリックにわたって大幅なパフォーマンスの改善を達成することを示しています。

要約(オリジナル)

Existing video captioning methods merely provide shallow or simplistic representations of object behaviors, resulting in superficial and ambiguous descriptions. However, object behavior is dynamic and complex. To comprehensively capture the essence of object behavior, we propose a dynamic action semantic-aware graph transformer. Firstly, a multi-scale temporal modeling module is designed to flexibly learn long and short-term latent action features. It not only acquires latent action features across time scales, but also considers local latent action details, enhancing the coherence and sensitiveness of latent action representations. Secondly, a visual-action semantic aware module is proposed to adaptively capture semantic representations related to object behavior, enhancing the richness and accurateness of action representations. By harnessing the collaborative efforts of these two modules,we can acquire rich behavior representations to generate human-like natural descriptions. Finally, this rich behavior representations and object representations are used to construct a temporal objects-action graph, which is fed into the graph transformer to model the complex temporal dependencies between objects and actions. To avoid adding complexity in the inference phase, the behavioral knowledge of the objects will be distilled into a simple network through knowledge distillation. The experimental results on MSVD and MSR-VTT datasets demonstrate that the proposed method achieves significant performance improvements across multiple metrics.

arxiv情報

著者 Caihua Liu,Xu Li,Wenjing Xue,Wei Tang,Xia Feng
発行日 2025-02-19 14:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning はコメントを受け付けていません

Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

要約

画像の位置を識別するタスクである地理配位には、複雑な推論が必要であり、ナビゲーション、監視、文化的保存に不可欠です。
ただし、現在の方法は、多くの場合、粗く、不正確な、および解釈できないローカリゼーションを生成します。
主要な課題は、既存のジオロケーションデータセットの品質と規模にあります。
これらのデータセットは通常、小規模で自動的に構築されているため、騒々しいデータと一貫性のないタスクの難易度が発生し、回答が簡単すぎるか、信頼できる推論のための十分な手がかりがない画像があります。
これらの課題に対処するために、3つの重要なコンポーネントを備えた包括的なジオロケーションフレームワークを紹介します。GeoComp、大規模なデータセット。
GeoCot、斬新な推論方法。
そして、ジオヴァルは、重要な課題に対処し、地球採点研究の進歩を促進するように集合的に設計されています。
このフレームワークの中核は、2年間にわたって740Kユーザーが関与するジオロケーションゲームプラットフォームから収集された大規模なデータセットであるGeoComp(Geolocation Competition Dataset)です。
それは、2500万のメタデータと300万の地球タグ付きの場所で構成されており、各場所は人間のユーザーによって数千から数万回注釈を付けました。
データセットは、詳細な分析のために多様な難易度レベルを提供し、現在のモデルの重要なギャップを強調しています。
このデータセットに基づいて、地理的なチェーン(GeoCot)を提案します。これは、地理的視力モデル(LVM)の推論機能を強化するために設計された新しいマルチステップ推論フレームワークです。
GeoCotは、人間の地理的推論を模倣するマルチステッププロセスを通じて、コンテキストと空間の手がかりを統合することにより、パフォーマンスを向上させます。
最後に、Geoevalメトリックを使用して、GeoCotが解釈可能性を向上させながら、ジオロケーションの精度を最大25%増加させることを実証します。

要約(オリジナル)

Geolocation, the task of identifying an image’s location, requires complex reasoning and is crucial for navigation, monitoring, and cultural preservation. However, current methods often produce coarse, imprecise, and non-interpretable localization. A major challenge lies in the quality and scale of existing geolocation datasets. These datasets are typically small-scale and automatically constructed, leading to noisy data and inconsistent task difficulty, with images that either reveal answers too easily or lack sufficient clues for reliable inference. To address these challenges, we introduce a comprehensive geolocation framework with three key components: GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval, an evaluation metric, collectively designed to address critical challenges and drive advancements in geolocation research. At the core of this framework is GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from a geolocation game platform involving 740K users over two years. It comprises 25 million entries of metadata and 3 million geo-tagged locations spanning much of the globe, with each location annotated thousands to tens of thousands of times by human users. The dataset offers diverse difficulty levels for detailed analysis and highlights key gaps in current models. Building on this dataset, we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning framework designed to enhance the reasoning capabilities of Large Vision Models (LVMs) in geolocation tasks. GeoCoT improves performance by integrating contextual and spatial cues through a multi-step process that mimics human geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing interpretability.

arxiv情報

著者 Zirui Song,Jingpu Yang,Yuan Huang,Jonathan Tonglet,Zeyu Zhang,Tao Cheng,Meng Fang,Iryna Gurevych,Xiuying Chen
発行日 2025-02-19 14:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework はコメントを受け付けていません

An Overall Real-Time Mechanism for Classification and Quality Evaluation of Rice

要約

米は世界で最も広く栽培されている作物の1つであり、多くの品種に発展しています。
栽培中の米の品質は、主にその品種と特性によって決定されます。
伝統的に、米の分類と品質評価は手動の目視検査に依存しています。これは、時間がかかり、エラーが発生しやすいプロセスです。
ただし、マシンビジョンテクノロジーの進歩により、その品種と特性に基づいた米の分類と品質評価の自動化がますます実行可能になり、精度と効率の両方を向上させています。
この研究では、包括的なイネ粒評価のためのリアルタイム評価メカニズム、1段階のオブジェクト検出アプローチ、深い畳み込みニューラルネットワーク、および従来の機械学習技術の統合を提案しています。
提案されたフレームワークにより、米の種類の識別、穀物の完全性のグレーディング、および穀物の重濃度の評価が可能になります。
この研究で使用されている米粒データセットは、中国で広く栽培された6つの米品種からの約20,000枚の画像で構成されています。
実験結果は、提案されたメカニズムが、オブジェクト検出タスクで99.14%の平均平均精度(MAP)と分類タスクで97.89%の精度を達成することを示しています。
さらに、このフレームワークは、同じ米の品種内で穀物完全性グレーディングで97.56%の平均精度を達成し、効果的な品質評価システムに貢献しています。

要約(オリジナル)

Rice is one of the most widely cultivated crops globally and has been developed into numerous varieties. The quality of rice during cultivation is primarily determined by its cultivar and characteristics. Traditionally, rice classification and quality assessment rely on manual visual inspection, a process that is both time-consuming and prone to errors. However, with advancements in machine vision technology, automating rice classification and quality evaluation based on its cultivar and characteristics has become increasingly feasible, enhancing both accuracy and efficiency. This study proposes a real-time evaluation mechanism for comprehensive rice grain assessment, integrating a one-stage object detection approach, a deep convolutional neural network, and traditional machine learning techniques. The proposed framework enables rice variety identification, grain completeness grading, and grain chalkiness evaluation. The rice grain dataset used in this study comprises approximately 20,000 images from six widely cultivated rice varieties in China. Experimental results demonstrate that the proposed mechanism achieves a mean average precision (mAP) of 99.14% in the object detection task and an accuracy of 97.89% in the classification task. Furthermore, the framework attains an average accuracy of 97.56% in grain completeness grading within the same rice variety, contributing to an effective quality evaluation system.

arxiv情報

著者 Wanke Xia,Ruxin Peng,Haoqi Chu,Xinlei Zhu,Zhiyu Yang,Yaojun Wang
発行日 2025-02-19 14:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | An Overall Real-Time Mechanism for Classification and Quality Evaluation of Rice はコメントを受け付けていません