Reinforced Multi-teacher Knowledge Distillation for Efficient General Image Forgery Detection and Localization

要約

画像偽造の検出とローカリゼーション(IFDL)は、鍛造された画像が私たちの日常生活に潜在的な脅威をもたらす誤った情報を広めることができるため、非常に重要です。
ただし、以前の方法は、実際のシナリオで多様な偽造操作で処理された偽造画像を効果的に処理するために依然として苦労していました。
このホワイトペーパーでは、IFDLタスクの新しい強化マルチテーカーの知識蒸留(RE-MTKD)フレームワークを提案します。これは、エンコーダデコダー\ textBf {c} onvnext- \ textbf {u} pernetを中心に構成されています。
まず、3つのキューネットモデルが、3つの主要なタイプの画像偽造、つまりコピームーブ、スプライシング、インペインティングのために個別にトレーニングされており、マルチテーカーモデルとして機能して、自己知識の蒸留を通じてキューネットでターゲットスチューデントモデルを訓練します。
強化された動的教師選択(RE-DTS)戦略が開発され、関係する教師モデルに重みを動的に割り当てることができます。これにより、特定の知識移転が容易になり、学生モデルが多様な改ざん痕跡の共通と特定の性質の両方を効果的に学習できます。
広範な実験は、他の最先端の方法と比較して、提案された方法が、さまざまな種類の画像偽造で構成されるいくつかの最近登場したデータセットで優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

Image forgery detection and localization (IFDL) is of vital importance as forged images can spread misinformation that poses potential threats to our daily lives. However, previous methods still struggled to effectively handle forged images processed with diverse forgery operations in real-world scenarios. In this paper, we propose a novel Reinforced Multi-teacher Knowledge Distillation (Re-MTKD) framework for the IFDL task, structured around an encoder-decoder \textbf{C}onvNeXt-\textbf{U}perNet along with \textbf{E}dge-Aware Module, named Cue-Net. First, three Cue-Net models are separately trained for the three main types of image forgeries, i.e., copy-move, splicing, and inpainting, which then serve as the multi-teacher models to train the target student model with Cue-Net through self-knowledge distillation. A Reinforced Dynamic Teacher Selection (Re-DTS) strategy is developed to dynamically assign weights to the involved teacher models, which facilitates specific knowledge transfer and enables the student model to effectively learn both the common and specific natures of diverse tampering traces. Extensive experiments demonstrate that, compared with other state-of-the-art methods, the proposed method achieves superior performance on several recently emerged datasets comprised of various kinds of image forgeries.

arxiv情報

著者 Zeqin Yu,Jiangqun Ni,Jian Zhang,Haoyi Deng,Yuzhen Lin
発行日 2025-04-07 16:12:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Reinforced Multi-teacher Knowledge Distillation for Efficient General Image Forgery Detection and Localization はコメントを受け付けていません

A Reality Check of Vision-Language Pre-training in Radiology: Have We Progressed Using Text?

要約

Vision-Language Pre-Trainingは、大規模なデータソースを使用してリッチな機能表現を学習できるため、最近人気を博しました。
このパラダイムは、すぐに医療イメージ分析コミュニティに進出しました。
特に、放射線科の視覚言語モデルを開発する最近の文献には印象的な量があります。
ただし、画像テキストの監督を備えた利用可能な医療データセットは不足しており、既存のビジョン言語モデルがエンコードに苦労しているという専門知識を含む医療概念は細かく密集しています。
この論文では、代わりに細かいラベルを使用して、文献から慎重な一歩を踏み出し、監督された非モーダルなトレーニングを再訪することを提案します。
ユニモーダルのプリトレーニングが非常に競争力があり、不均一なデータソースの統合に適していることを示す広範な比較を実施します。
また、私たちの結果は、楽観的な実験的設定を使用して評価されているオープンボキャブラリー一般化の最近の視覚言語モデルの可能性にも疑問を呈しています。
最後に、細かいラベルとノイズの多いテキスト監督をよりよく統合するための新しい代替品を研究します。

要約(オリジナル)

Vision-language pre-training has recently gained popularity as it allows learning rich feature representations using large-scale data sources. This paradigm has quickly made its way into the medical image analysis community. In particular, there is an impressive amount of recent literature developing vision-language models for radiology. However, the available medical datasets with image-text supervision are scarce, and medical concepts are fine-grained, involving expert knowledge that existing vision-language models struggle to encode. In this paper, we propose to take a prudent step back from the literature and revisit supervised, unimodal pre-training, using fine-grained labels instead. We conduct an extensive comparison demonstrating that unimodal pre-training is highly competitive and better suited to integrating heterogeneous data sources. Our results also question the potential of recent vision-language models for open-vocabulary generalization, which have been evaluated using optimistic experimental settings. Finally, we study novel alternatives to better integrate fine-grained labels and noisy text supervision.

arxiv情報

著者 Julio Silva-Rodríguez,Jose Dolz,Ismail Ben Ayed
発行日 2025-04-07 16:13:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Reality Check of Vision-Language Pre-training in Radiology: Have We Progressed Using Text? はコメントを受け付けていません

Spider: Any-to-Many Multimodal LLM

要約

マルチモーダルLLM(MLLM)は、大規模な言語モデル(LLM)の拡張として浮上しており、さまざまなモダリティの統合を可能にしています。
ただし、Any-to-to-Any MLLMは、Text + {画像またはオーディオまたはビデオ}など、単一の応答内でペアワイズモダリティの「テキスト + x」を生成することに限定されています。
この制限に対処するために、Text + {Image and Audio and Video}などのモダリティのテキスト + XS ‘の任意の組み合わせを生成できる、新規効率的なマニュ対モダリティ生成(AMMG)フレームワークであるSpiderを紹介します。
効率的なAMMGを実現するために、Spiderは3つのコアコンポーネントを統合します。基本的なX-to-X(つまり、Any-to-to-Any)モダリティ処理のベースモデル、XS信号プロンプトを生成するために設計されたすべての多くの命令テンプレート、およびXS(多型)の内容を生成するマルチモーダルデコーダーを制御するための新しい効率的なデコーダーコントローラーです。
クモを訓練するために、ammgに必要なX-to-xs(すなわち、すべての多くの)機能を学習することを容易にする新しいテキスト形式の多くのモーダル(TMM)データセットを構築しました。
最終的に、よく訓練されたクモは、X-to-X-to-X-X-XSの多くのモーダルデータセットである擬似X-to-XSデータセットを生成し、将来の研究におけるAMMGタスクの可能性を高めます。
全体として、この作業はマルチモーダル相互作用の境界を押し広げるだけでなく、フィールドを進めるための豊富なデータサポートも提供します。
コード:https://github.com/layjins/spider

要約(オリジナル)

Multimodal LLMs (MLLMs) have emerged as an extension of Large Language Models (LLMs), enabling the integration of various modalities. However, Any-to-Any MLLMs are limited to generating pairwise modalities ‘Text + X’ within a single response, such as Text + {Image or Audio or Video}. To address this limitation, we introduce Spider, a novel efficient Any-to-Many Modalities Generation (AMMG) framework, which can generate an arbitrary combination of modalities ‘Text + Xs’, such as Text + {Image and Audio and Video}. To achieve efficient AMMG, our Spider integrates three core components: a Base Model for basic X-to-X (i.e., Any-to-Any) modality processing, an Any-to-Many Instruction Template designed for producing Xs signal prompts, and a novel Efficient Decoders-Controller for controlling multimodal Decoders to generate Xs (many-modal) contents. To train Spider, we constructed a novel Text-formatted Many-Modal (TMM) dataset, which facilitates learning the X-to-Xs (i.e., Any-to-Many) capability necessary for AMMG. Ultimately, the well-trained Spider generates a pseudo X-to-Xs dataset, the first-ever X-to-Xs many-modal dataset, enhancing the potential for AMMG tasks in future research. Overall, this work not only pushes the boundary of multimodal interaction but also provides rich data support for advancing the field. Code: https://github.com/Layjins/Spider

arxiv情報

著者 Jinxiang Lai,Jie Zhang,Jun Liu,Jian Li,Xiaocheng Lu,Song Guo
発行日 2025-04-07 16:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spider: Any-to-Many Multimodal LLM はコメントを受け付けていません

Mapping biodiversity at very-high resolution in Europe

要約

このペーパーでは、ヨーロッパ全体の高解像度の生物多様性マッピングのためのカスケードマルチモーダルパイプライン、種分布モデリング、生物多様性インジケーター、および生息地分類の統合について説明します。
提案されたパイプラインは、最初に、50x50mの解像度でリモートセンシング、気候時系列、および種の発生データをトレーニングしたマルチモーダルモデルであるDEEPSDMを使用して、種の組成を予測します。
これらの予測は、生物多様性インジケーターマップを生成し、種間マッピング用に設計されたトランスベースのLLMであるPL@ntbertで生息地を分類するために使用されます。
このアプローチにより、大陸規模の種分布マップ、生物多様性インジケーターマップ、および生息地マップが生成され、細かい生態学的洞察が提供されます。
従来の方法とは異なり、このフレームワークは、種間依存関係の共同モデリング、異種の存在と存在性データによるバイアス認識トレーニング、およびマルチソースリモートセンシング入力からの大規模な推論を可能にします。

要約(オリジナル)

This paper describes a cascading multimodal pipeline for high-resolution biodiversity mapping across Europe, integrating species distribution modeling, biodiversity indicators, and habitat classification. The proposed pipeline first predicts species compositions using a deep-SDM, a multimodal model trained on remote sensing, climate time series, and species occurrence data at 50x50m resolution. These predictions are then used to generate biodiversity indicator maps and classify habitats with Pl@ntBERT, a transformer-based LLM designed for species-to-habitat mapping. With this approach, continental-scale species distribution maps, biodiversity indicator maps, and habitat maps are produced, providing fine-grained ecological insights. Unlike traditional methods, this framework enables joint modeling of interspecies dependencies, bias-aware training with heterogeneous presence-absence data, and large-scale inference from multi-source remote sensing inputs.

arxiv情報

著者 César Leblanc,Lukas Picek,Benjamin Deneu,Pierre Bonnet,Maximilien Servajean,Rémi Palard,Alexis Joly
発行日 2025-04-07 16:15:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Mapping biodiversity at very-high resolution in Europe はコメントを受け付けていません

Federated Learning for Medical Image Classification: A Comprehensive Benchmark

要約

連邦学習パラダイムは、参加者のプライバシーを保護しながら、孤立した多施設データの機械学習に効果的に対処できるため、医療画像分析の分野に適しています。
ただし、連邦学習における最適化アルゴリズムに関する現在の研究は、主に自然画像を中心とした限られたデータセットとシナリオに焦点を当てており、医学的文脈での比較実験が不十分です。
この作業では、医療イメージングのコンテキストで、いくつかの最先端の連邦学習アルゴリズムの包括的な評価を実施します。
複数の医療画像データセットでさまざまなフェデレーション学習アルゴリズムを使用してトレーニングされた分類モデルの公正な比較を実施します。
さらに、さまざまな連合学習アーキテクチャを検討しながら、通信コストや計算効率などのシステムパフォーマンスメトリックを評価します。
私たちの調査結果は、医療イメージングデータセットが現在の連邦学習最適化アルゴリズムに大きな課題をもたらすことを示しています。
すべての医療連合学習シナリオで一貫して最適なパフォーマンスを提供する単一のアルゴリズムはなく、これらのデータセットに適用すると、多くの最適化アルゴリズムがパフォーマンスを下回る可能性があります。
私たちの実験は、医療イメージングの文脈における連邦学習の将来の研究と適用のためのベンチマークとガイダンスを提供します。
さらに、拡散確率モデルを除去する生成技術とラベルのスムージングとデータセットを増強する効率的で堅牢な方法を提案し、さまざまな医療イメージングデータセットの分類タスクでのフェデレート学習のパフォーマンスを広く強化します。
私たちのコードはGitHubでリリースされ、医療イメージングの将来の連合学習研究のための信頼できる包括的なベンチマークを提供します。

要約(オリジナル)

The federated learning paradigm is wellsuited for the field of medical image analysis, as it can effectively cope with machine learning on isolated multicenter data while protecting the privacy of participating parties. However, current research on optimization algorithms in federated learning often focuses on limited datasets and scenarios, primarily centered around natural images, with insufficient comparative experiments in medical contexts. In this work, we conduct a comprehensive evaluation of several state-of-the-art federated learning algorithms in the context of medical imaging. We conduct a fair comparison of classification models trained using various federated learning algorithms across multiple medical imaging datasets. Additionally, we evaluate system performance metrics, such as communication cost and computational efficiency, while considering different federated learning architectures. Our findings show that medical imaging datasets pose substantial challenges for current federated learning optimization algorithms. No single algorithm consistently delivers optimal performance across all medical federated learning scenarios, and many optimization algorithms may underperform when applied to these datasets. Our experiments provide a benchmark and guidance for future research and application of federated learning in medical imaging contexts. Furthermore, we propose an efficient and robust method that combines generative techniques using denoising diffusion probabilistic models with label smoothing to augment datasets, widely enhancing the performance of federated learning on classification tasks across various medical imaging datasets. Our code will be released on GitHub, offering a reliable and comprehensive benchmark for future federated learning studies in medical imaging.

arxiv情報

著者 Zhekai Zhou,Guibo Luo,Mingzhi Chen,Zhenyu Weng,Yuesheng Zhu
発行日 2025-04-07 16:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC | Federated Learning for Medical Image Classification: A Comprehensive Benchmark はコメントを受け付けていません

Texture2LoD3: Enabling LoD3 Building Reconstruction With Panoramic Images

要約

表面再構成の最近の進歩にもかかわらず、詳細レベル(LOD)3建物の再建は未解決の課題のままです。
主な問題は、ジオレフェンス、水密幾何学、ファサードセマンティクス、および非構造化されていないメッシュ指向モデルを対照的なコアフェルフェンス、水密度幾何学、ファサードセマンティクス、および低ポリの表現を必要とするオブジェクト指向のモデリングパラダイムに関連しています。
Texture2Lod3では、3Dビルディングモデルの普及とパノラマのストリートレベルの画像の遍在性を活用する新しい方法を導入し、LOD3ビルディングモデルの再構築を可能にします。
以前の低いデテールビルディングモデルは、矯正路面レベルのパノラマ画像の有効な平面ターゲットとして役立つことがわかります。
さらに、正確にテクスチャの低いレベルの建物表面にセグメンテーションを展開することは、LOD3再建のための重要な地理参照、水密幾何学、および低極表現の維持をサポートします。
LOD3検証データがない場合、RELOD3データセットをさらに導入します。この方法では、この方法がファサードセグメンテーションの精度が11%改善され、費用のかかる手動投影に取って代わることができることを実験的に実証します。
Texture2Lod3は、LOD3モデルの採用を拡大し、太陽電位の構築を推定するためのアプリケーションを開設したり、自律運転シミュレーションを強化することができると考えています。
プロジェクトWebサイト、コード、およびデータは、https://wenzhaotang.github.io/texture2lod3/で入手できます。

要約(オリジナル)

Despite recent advancements in surface reconstruction, Level of Detail (LoD) 3 building reconstruction remains an unresolved challenge. The main issue pertains to the object-oriented modelling paradigm, which requires georeferencing, watertight geometry, facade semantics, and low-poly representation — Contrasting unstructured mesh-oriented models. In Texture2LoD3, we introduce a novel method leveraging the ubiquity of 3D building model priors and panoramic street-level images, enabling the reconstruction of LoD3 building models. We observe that prior low-detail building models can serve as valid planar targets for ortho-rectifying street-level panoramic images. Moreover, deploying segmentation on accurately textured low-level building surfaces supports maintaining essential georeferencing, watertight geometry, and low-poly representation for LoD3 reconstruction. In the absence of LoD3 validation data, we additionally introduce the ReLoD3 dataset, on which we experimentally demonstrate that our method leads to improved facade segmentation accuracy by 11% and can replace costly manual projections. We believe that Texture2LoD3 can scale the adoption of LoD3 models, opening applications in estimating building solar potential or enhancing autonomous driving simulations. The project website, code, and data are available here: https://wenzhaotang.github.io/Texture2LoD3/.

arxiv情報

著者 Wenzhao Tang,Weihang Li,Xiucheng Liang,Olaf Wysocki,Filip Biljecki,Christoph Holst,Boris Jutzi
発行日 2025-04-07 16:40:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Texture2LoD3: Enabling LoD3 Building Reconstruction With Panoramic Images はコメントを受け付けていません

Contour Integration Underlies Human-Like Vision

要約

コンピュータービジョンにおける深い学習の大成功にもかかわらず、モデルはまだ新しい入力分布に一般化する人間に遅れをとっています。
既存のベンチマークでは、多くの制御された条件下でパフォーマンスを分析することにより、モデルの特定の障害点を調査しません。
私たちの研究は、モデルがさまざまなレベルのオブジェクト断片化の下でオブジェクト認識をテストする実験を設計することにより、モデルが輪郭統合(人間の視覚の特徴)と闘う場所と理由を体系的に分析します。
人間(n = 50)は、オブジェクトの輪郭がほとんど存在しない場合でも、高精度で機能します。
これは、オブジェクトの輪郭の増加に対する感度が大幅に低くなるモデルとは対照的であり、テストした1,000を超えるモデルのほとんどは、チャンスをかろうじて実行しています。
非常に大きなスケール($ \ sim5b $トレーニングデータセットサイズ)でのみ、モデルは人間のパフォーマンスにアプローチし始めます。
重要なことに、人間は統合バイアスを示します。これは、方向のない断片を上回る方向のフラグメントで構成されるオブジェクトを認識することへの好みです。
このプロパティを共有するモデルは、私たちのタスクでパフォーマンスを向上させるだけでなく、このバイアスがモデルトレーニングデータセットサイズとともに増加し、輪郭統合を示すトレーニングモデルも高形状バイアスにつながることがわかります。
まとめると、我々の結果は、等高線統合がオブジェクト認識パフォーマンスの根底にあるオブジェクトビジョンの特徴であり、大規模なデータから学習するメカニズムである可能性があることを示唆しています。

要約(オリジナル)

Despite the tremendous success of deep learning in computer vision, models still fall behind humans in generalizing to new input distributions. Existing benchmarks do not investigate the specific failure points of models by analyzing performance under many controlled conditions. Our study systematically dissects where and why models struggle with contour integration — a hallmark of human vision — by designing an experiment that tests object recognition under various levels of object fragmentation. Humans (n=50) perform at high accuracy, even with few object contours present. This is in contrast to models which exhibit substantially lower sensitivity to increasing object contours, with most of the over 1,000 models we tested barely performing above chance. Only at very large scales ($\sim5B$ training dataset size) do models begin to approach human performance. Importantly, humans exhibit an integration bias — a preference towards recognizing objects made up of directional fragments over directionless fragments. We find that not only do models that share this property perform better at our task, but that this bias also increases with model training dataset size, and training models to exhibit contour integration leads to high shape bias. Taken together, our results suggest that contour integration is a hallmark of object vision that underlies object recognition performance, and may be a mechanism learned from data at scale.

arxiv情報

著者 Ben Lonnqvist,Elsa Scialom,Abdulkadir Gokce,Zehra Merchant,Michael H. Herzog,Martin Schrimpf
発行日 2025-04-07 16:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Contour Integration Underlies Human-Like Vision はコメントを受け付けていません

Explaining Low Perception Model Competency with High-Competency Counterfactuals

要約

画像分類モデルがその決定を生成する方法を説明する多くの方法が存在しますが、分類器がその予測に自信を欠いている理由を説明する方法を探求する作業はほとんどありません。
分類器が自信を失う可能性があるさまざまな理由があるため、このモデルが不確実性のレベルを示すだけでなく、なぜ不確実であるのかを説明することは価値があります。
反事実的な画像は、異なる分類決定を生成するために画像に加えられる変更を視覚化するために使用されています。
この作業では、反事実性の使用を調査して、低モデルの能力の説明を提供します。これは、信頼を測定する一般化された予測不確実性の一般化された形式です。
この目的に向けて、5つの新しい新しい方法を開発して、高能力の反事実的画像、すなわち画像勾配降下(IGD)、特徴勾配降下(FGD)、自動エンコーダー再構成(RECO)、潜在勾配降下(LGD)、および潜在最近隣人(LNN)を生成します。
モデルのコンピテンシーが低いために6つの既知の原因を持つ画像を含む2つの一意のデータセットでこれらの方法を評価し、RECO、LGD、およびLNNが反事実的生成の最も有望な方法であることを発見します。
さらに、これらの3つの方法を、事前に訓練を受けたマルチモーダル大手言語モデル(MLLM)によってどのように利用できるかを評価し、低モデルの能力の言語説明を生成します。
言語モデルのクエリに反事実的な画像を含めると、モデルの能力が低い原因の正確な説明を生成するモデルの能力が大幅に向上し、低い知覚モデルの能力を説明する際の反事実的画像の有用性を実証することがわかります。

要約(オリジナル)

There exist many methods to explain how an image classification model generates its decision, but very little work has explored methods to explain why a classifier might lack confidence in its prediction. As there are various reasons the classifier might lose confidence, it would be valuable for this model to not only indicate its level of uncertainty but also explain why it is uncertain. Counterfactual images have been used to visualize changes that could be made to an image to generate a different classification decision. In this work, we explore the use of counterfactuals to offer an explanation for low model competency–a generalized form of predictive uncertainty that measures confidence. Toward this end, we develop five novel methods to generate high-competency counterfactual images, namely Image Gradient Descent (IGD), Feature Gradient Descent (FGD), Autoencoder Reconstruction (Reco), Latent Gradient Descent (LGD), and Latent Nearest Neighbors (LNN). We evaluate these methods across two unique datasets containing images with six known causes for low model competency and find Reco, LGD, and LNN to be the most promising methods for counterfactual generation. We further evaluate how these three methods can be utilized by pre-trained Multimodal Large Language Models (MLLMs) to generate language explanations for low model competency. We find that the inclusion of a counterfactual image in the language model query greatly increases the ability of the model to generate an accurate explanation for the cause of low model competency, thus demonstrating the utility of counterfactual images in explaining low perception model competency.

arxiv情報

著者 Sara Pohland,Claire Tomlin
発行日 2025-04-07 16:46:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Explaining Low Perception Model Competency with High-Competency Counterfactuals はコメントを受け付けていません

DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction

要約

データ表現の選択は、幾何学的なタスクにおける深い学習の成功における重要な要素です。
たとえば、Dust3Rは最近、視点に不変のポイントマップの概念を導入し、深さの予測を一般化し、静的シーンの3D再構成のすべての重要な問題をそのようなポイントマップの予測に還元できることを示しています。
この論文では、3D形状の再構築と変形可能なオブジェクトのポーズ、つまり、非常に異なる問題の類似の概念を開発します。
この目的のために、デュアルポイントマップ(dualPM)を導入します。ここでは、同じ画像1位からピクセルを関連付ける1つのポイントマップがオブジェクト上の3D位置に、もう1つは休憩ポーズのオブジェクトの標準バージョンに抽出されます。
また、ポイントマップをAmodal Reconstructionに拡張して、オブジェクトの完全な形状を自己閉鎖を通して回復します。
3D再構成と3Dポーズ推定をDualPMSの予測に減らすことができることを示します。
経験的には、この表現がディープネットワークが予測するのに適したターゲットであることを実証します。
具体的には、DualPMSをカテゴリごとに1つまたは2つのモデルで構成する合成3Dデータで純粋にトレーニングできることを示し、実際の画像に効果的に一般化することに焦点を当てています。
このアプローチにより、このようなオブジェクトの3D分析と再構築のための以前の方法よりも大幅な改善が得られます。

要約(オリジナル)

The choice of data representation is a key factor in the success of deep learning in geometric tasks. For instance, DUSt3R recently introduced the concept of viewpoint-invariant point maps, generalizing depth prediction and showing that all key problems in the 3D reconstruction of static scenes can be reduced to predicting such point maps. In this paper, we develop an analogous concept for a very different problem: the reconstruction of the 3D shape and pose of deformable objects. To this end, we introduce Dual Point Maps (DualPM), where a pair of point maps is extracted from the same image-one associating pixels to their 3D locations on the object and the other to a canonical version of the object in its rest pose. We also extend point maps to amodal reconstruction to recover the complete shape of the object, even through self-occlusions. We show that 3D reconstruction and 3D pose estimation can be reduced to the prediction of DualPMs. Empirically, we demonstrate that this representation is a suitable target for deep networks to predict. Specifically, we focus on modeling quadrupeds, showing that DualPMs can be trained purely on synthetic 3D data, consisting of one or two models per category, while generalizing effectively to real images. With this approach, we achieve significant improvements over previous methods for the 3D analysis and reconstruction of such objects.

arxiv情報

著者 Ben Kaye,Tomas Jakab,Shangzhe Wu,Christian Rupprecht,Andrea Vedaldi
発行日 2025-04-07 16:56:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction はコメントを受け付けていません

TflosYOLO+TFSC: An Accurate and Robust Model for Estimating Flower Count and Flowering Period

要約

茶の花は、茶植物の分類学的研究とハイブリッド繁殖において重要な役割を果たします。
茶花の特性を観察する従来の方法は労働集約的で不正確であるため、茶の開花定量化のためのTflosyoloとTFSCモデルを提案します。これにより、花の数と開花期の推定が可能です。
この研究では、2年間で29の茶登録から花の画像を収集することにより、非常に代表的で多様なデータセットが構築されました。
このデータセットに基づいて、TflosyoloモデルはYolov5アーキテクチャに基づいて構築され、ティーフラワーを検出およびカウントするための実行可能なソリューションを提供する最初のモデルであるスクイーズアンドエクスケーション(SE)ネットワークで強化されました。
Tflosyoloモデルは、0.874のMap50を達成し、Yolov5、Yolov7、Yolov8を上回りました。
さらに、Tflosyoloモデルは、26のお茶の加速、5つの開花段階、さまざまな照明条件、および剪定 /拡散植物を含む34のデータセットでテストされ、高い一般化と堅牢性を示しました。
予測された花数と実際の花数の間の相関係数(r^2)は0.974でした。
さらに、TFSC(茶開花段階分類)モデル、7層ニューラルネットワークは、開花期の自動分類のために設計されました。
TFSCモデルは2年間に評価され、それぞれ0.738と0.899の精度を達成しました。
Tflosyolo+TFSCモデルを使用して、お茶の開花ダイナミクスを監視し、さまざまなお茶の加速における開花段階の変化を追跡しました。
このフレームワークは、茶植物育種プログラムと生殖質資源の表現型分析を重要なサポートを提供します。

要約(オリジナル)

Tea flowers play a crucial role in taxonomic research and hybrid breeding for the tea plant. As traditional methods of observing tea flower traits are labor-intensive and inaccurate, we propose TflosYOLO and TFSC model for tea flowering quantifying, which enable estimation of flower count and flowering period. In this study, a highly representative and diverse dataset was constructed by collecting flower images from 29 tea accessions in 2 years. Based on this dataset, the TflosYOLO model was built on the YOLOv5 architecture and enhanced with the Squeeze-and-Excitation (SE) network, which is the first model to offer a viable solution for detecting and counting tea flowers. The TflosYOLO model achieved an mAP50 of 0.874, outperforming YOLOv5, YOLOv7 and YOLOv8. Furthermore, TflosYOLO model was tested on 34 datasets encompassing 26 tea accessions, five flowering stages, various lighting conditions, and pruned / unpruned plants, demonstrating high generalization and robustness. The correlation coefficient (R^2) between the predicted and actual flower counts was 0.974. Additionally, the TFSC (Tea Flowering Stage Classification) model, a 7-layer neural network was designed for automatic classification of the flowering period. TFSC model was evaluated on 2 years and achieved an accuracy of 0.738 and 0.899 respectively. Using the TflosYOLO+TFSC model, we monitored the tea flowering dynamics and tracked the changes in flowering stages across various tea accessions. The framework provides crucial support for tea plant breeding programs and phenotypic analysis of germplasm resources.

arxiv情報

著者 Qianxi Mi,Pengcheng Yuan,Chunlei Ma,Jiedan Chen,Mingzhe Yao
発行日 2025-04-07 16:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.QM | TflosYOLO+TFSC: An Accurate and Robust Model for Estimating Flower Count and Flowering Period はコメントを受け付けていません