Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image Recognition

要約

食品の画像に基づいた自動食事評価は依然として課題であり、正確な食品検出、セグメンテーション、および分類が必要です。
ビジョン言語モデル(VLM)は、視覚とテキストの推論を統合することにより、新しい可能性を提供します。
この研究では、6つの最先端のVLMS(ChatGpt、Gemini、Claude、Moondream、Deepseek、およびLlava)を評価し、さまざまなレベルでの食品認識の能力を分析します。
実験フレームワークについては、10のカテゴリ(「タンパク質ソース」など)にわたって9,263の専門家標識画像を含むユニークな食品画像データベース、62のサブカテゴリ(「家禽」など)、9つの料理スタイル(例えば、「グリル」)を含むfoodNextDBを紹介します。
合計で、FoodNextDBには、データベース内のすべての画像を手動で注釈させた7人の専門家によって生成された50kの栄養ラベルが含まれています。
また、アノテーター間の変動を説明する新しい評価メトリック、専門家加重リコール(EWR)を提案します。
結果は、クローズドソースモデルがオープンソースのモデルよりも優れており、単一の製品を含む画像の食品を認識する際に90%以上のEWRを達成することを示しています。
その可能性にもかかわらず、現在のVLMは、特に調理スタイルと視覚的に類似した食品の微妙な違いを区別することで、きめ細かい食物認識において課題に直面しています。
foodnextdbデータベースは、https://github.com/ai4food/foodnextdbで公開されています。

要約(オリジナル)

Automatic dietary assessment based on food images remains a challenge, requiring precise food detection, segmentation, and classification. Vision-Language Models (VLMs) offer new possibilities by integrating visual and textual reasoning. In this study, we evaluate six state-of-the-art VLMs (ChatGPT, Gemini, Claude, Moondream, DeepSeek, and LLaVA), analyzing their capabilities in food recognition at different levels. For the experimental framework, we introduce the FoodNExTDB, a unique food image database that contains 9,263 expert-labeled images across 10 categories (e.g., ‘protein source’), 62 subcategories (e.g., ‘poultry’), and 9 cooking styles (e.g., ‘grilled’). In total, FoodNExTDB includes 50k nutritional labels generated by seven experts who manually annotated all images in the database. Also, we propose a novel evaluation metric, Expert-Weighted Recall (EWR), that accounts for the inter-annotator variability. Results show that closed-source models outperform open-source ones, achieving over 90% EWR in recognizing food products in images containing a single product. Despite their potential, current VLMs face challenges in fine-grained food recognition, particularly in distinguishing subtle differences in cooking styles and visually similar food items, which limits their reliability for automatic dietary assessment. The FoodNExTDB database is publicly available at https://github.com/AI4Food/FoodNExtDB.

arxiv情報

著者 Sergio Romero-Tapiador,Ruben Tolosana,Blanca Lacruz-Pleguezuelos,Laura Judith Marcos Zambrano,Guadalupe X. Bazán,Isabel Espinosa-Salinas,Julian Fierrez,Javier Ortega-Garcia,Enrique Carrillo de Santa Pau,Aythami Morales
発行日 2025-04-09 14:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image Recognition はコメントを受け付けていません

Towards Communication-Efficient Adversarial Federated Learning for Robust Edge Intelligence

要約

Federated Learning(FL)は、生データを公開せずにエッジネットワークで分散型トレーニングを可能にするために大きな注目を集めています。
ただし、FLモデルは、非IIDデータ設定における敵対的な攻撃やパフォーマンスの低下の影響を受けやすく、堅牢性と精度の両方に課題をもたらします。
このペーパーは、AFLの敵対的攻撃と非IID課題の下での堅牢性と精度の両方を強化するために、事前に訓練されたモデルを活用することにより、コミュニケーション効率の高い敵対的フェデレーション学習(AFL)を達成することを目的としています。
クリーン画像と敵対的な画像の両方について、事前に訓練されたモデルから知識を活用することにより、事前に訓練されたモデルガイド付き敵対的フェデレートラーニング(PM-AFL)フレームワークを提案します。
このフレームワークは、バニラと敵対的な混合知識の蒸留を統合して、多様なデータから学習するためにローカルモデルを促進しながら、精度と堅牢性のバランスを効果的にバランスさせます。
具体的には、クリーンな精度のために、ランダムにペアになった画像のクラス確率と、それらのブレンドバージョンが教師モデルとローカルモデルの間に並べられている二重蒸留戦略を採用します。
敵対的な堅牢性のために、同様の蒸留アプローチを採用していますが、局所側のきれいなサンプルを敵対的な例に置き換えます。
さらに、ローカルモデルとグローバルモデルの間のバイアスを考慮することにより、一貫性の正則化用語も組み込まれて、ローカルの敵対的予測が対応するグローバルなクリーンな予測と整合していることを確認します。
これらの戦略により、ローカルモデルは、グローバルモデルとの密接な整合性を維持しながら、教師モデルからの多様な知識を吸収することにより、ローカルモデルを維持し、それによりローカルオプティマへの過剰適合を軽減し、グローバルモデルの一般化を強化します。
実験は、PM-AFLベースのフレームワークが他の方法を大幅に上回るだけでなく、コミュニケーション効率を維持することを示しています。

要約(オリジナル)

Federated learning (FL) has gained significant attention for enabling decentralized training on edge networks without exposing raw data. However, FL models remain susceptible to adversarial attacks and performance degradation in non-IID data settings, thus posing challenges to both robustness and accuracy. This paper aims to achieve communication-efficient adversarial federated learning (AFL) by leveraging a pre-trained model to enhance both robustness and accuracy under adversarial attacks and non-IID challenges in AFL. By leveraging the knowledge from a pre-trained model for both clean and adversarial images, we propose a pre-trained model-guided adversarial federated learning (PM-AFL) framework. This framework integrates vanilla and adversarial mixture knowledge distillation to effectively balance accuracy and robustness while promoting local models to learn from diverse data. Specifically, for clean accuracy, we adopt a dual distillation strategy where the class probabilities of randomly paired images, and their blended versions are aligned between the teacher model and the local models. For adversarial robustness, we employ a similar distillation approach but replace clean samples on the local side with adversarial examples. Moreover, by considering the bias between local and global models, we also incorporate a consistency regularization term to ensure that local adversarial predictions stay aligned with their corresponding global clean ones. These strategies collectively enable local models to absorb diverse knowledge from the teacher model while maintaining close alignment with the global model, thereby mitigating overfitting to local optima and enhancing the generalization of the global model. Experiments demonstrate that the PM-AFL-based framework not only significantly outperforms other methods but also maintains communication efficiency.

arxiv情報

著者 Yu Qiao,Apurba Adhikary,Huy Q. Le,Eui-Nam Huh,Zhu Han,Choong Seon Hong
発行日 2025-04-09 14:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Communication-Efficient Adversarial Federated Learning for Robust Edge Intelligence はコメントを受け付けていません

PathSegDiff: Pathology Segmentation using Diffusion model representations

要約

画像セグメンテーションは、正確な疾患診断、サブタイピング、結果、生存可能性の予測など、多くの計算病理学パイプラインで重要です。
セグメンテーションモデルをトレーニングするための一般的なアプローチは、事前に訓練された特徴抽出器と、ペアの画像とマスク注釈のデータセットに依存しています。
これらは、特徴をピクセルあたりのクラスに変換する軽量予測モデルをトレーニングするために使用されます。
特徴抽出器の選択は、最終セグメンテーションモデルのパフォーマンスの中心であり、最近の文献は、特徴抽出器を事前にトレーニングするタスクを見つけることに焦点を当てています。
この論文では、Pathsegdiffを提案します。Pathsegdiffは、事前に訓練された特色の抽出者として潜在的拡散モデル(LDMS)を活用する組織病理学画像セグメンテーションの新しいアプローチであると提案します。
私たちの方法は、自己監視されたエンコーダーに導かれた病理固有のLDMを利用して、H \&E染色された組織病理学画像から豊富なセマンティック情報を抽出します。
LDMから抽出された機能を処理し、セグメンテーションマスクを生成するために、シンプルで完全な畳み込みネットワークを採用しています。
我々の実験は、BCSSおよびGLASデータセットの従来の方法よりも大幅な改善を示し、複雑な組織構造のキャプチャと組織病理学画像のセグメンテーション精度の向上におけるドメイン固有の拡散前トレーニングの有効性を強調しています。

要約(オリジナル)

Image segmentation is crucial in many computational pathology pipelines, including accurate disease diagnosis, subtyping, outcome, and survivability prediction. The common approach for training a segmentation model relies on a pre-trained feature extractor and a dataset of paired image and mask annotations. These are used to train a lightweight prediction model that translates features into per-pixel classes. The choice of the feature extractor is central to the performance of the final segmentation model, and recent literature has focused on finding tasks to pre-train the feature extractor. In this paper, we propose PathSegDiff, a novel approach for histopathology image segmentation that leverages Latent Diffusion Models (LDMs) as pre-trained featured extractors. Our method utilizes a pathology-specific LDM, guided by a self-supervised encoder, to extract rich semantic information from H\&E stained histopathology images. We employ a simple, fully convolutional network to process the features extracted from the LDM and generate segmentation masks. Our experiments demonstrate significant improvements over traditional methods on the BCSS and GlaS datasets, highlighting the effectiveness of domain-specific diffusion pre-training in capturing intricate tissue structures and enhancing segmentation accuracy in histopathology images.

arxiv情報

著者 Sachin Kumar Danisetty,Alexandros Graikos,Srikar Yellapragada,Dimitris Samaras
発行日 2025-04-09 14:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PathSegDiff: Pathology Segmentation using Diffusion model representations はコメントを受け付けていません

A Comparison of Deep Learning Methods for Cell Detection in Digital Cytology

要約

多くの生物医学的画像分析タスクでは、正確で効率的な細胞検出が重要です。
予測と計算効率の精度に焦点を当てた、パパニコラウ染色された細胞学的全体のスライド画像(WSI)における細胞検出のためのいくつかの深い学習(DL)方法のパフォーマンスを評価します。
CNSEGデータセットと口腔癌(OC)データセットの2つのデータセットに適用するだけでなく、最近の既製のアルゴリズムとカスタム設計の検出器を調べます。
私たちの比較には、Stardist、Cellopse、Segment Anything Model 2(SAM2)などの確立されたセグメンテーション方法と、Centroidベースの完全畳み込み回帰ネットワーク(FCRN)がアプローチします。
グラウンドトゥルースの位置からの距離に基づいて、予測の精度を評価するために、適切な評価メトリックを導入します。
また、モデルのパフォーマンスに対するデータセットのサイズとデータ増強技術の影響についても調査します。
結果は、重心ベースの方法、特に改善された完全畳み込み回帰ネットワーク(IFCRN)メソッドは、検出精度と計算効率の両方の観点からセグメンテーションベースの方法を上回ることを示しています。
この研究では、リソースに制限された環境での細胞検出の好ましいオプションとしてのCentroidベースの検出器の可能性を強調しており、精度を損なうことなく、処理時間とGPUメモリの使用量の速度を提供します。

要約(オリジナル)

Accurate and efficient cell detection is crucial in many biomedical image analysis tasks. We evaluate the performance of several Deep Learning (DL) methods for cell detection in Papanicolaou-stained cytological Whole Slide Images (WSIs), focusing on accuracy of predictions and computational efficiency. We examine recentoff-the-shelf algorithms as well as custom-designed detectors, applying them to two datasets: the CNSeg Dataset and the Oral Cancer (OC) Dataset. Our comparison includes well-established segmentation methods such as StarDist, Cellpose, and the Segment Anything Model 2 (SAM2), alongside centroid-based Fully Convolutional Regression Network (FCRN) approaches. We introduce a suitable evaluation metric to assess the accuracy of predictions based on the distance from ground truth positions. We also explore the impact of dataset size and data augmentation techniques on model performance. Results show that centroid-based methods, particularly the Improved Fully Convolutional Regression Network (IFCRN) method, outperform segmentation-based methods in terms of both detection accuracy and computational efficiency. This study highlights the potential of centroid-based detectors as a preferred option for cell detection in resource-limited environments, offering faster processing times and lower GPU memory usage without compromising accuracy.

arxiv情報

著者 Marco Acerbis,Nataša Sladoje,Joakim Lindblad
発行日 2025-04-09 15:08:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Comparison of Deep Learning Methods for Cell Detection in Digital Cytology はコメントを受け付けていません

VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

要約

補強学習における最近の進歩により、マルチモーダルの大手言語モデル(MLLM)の推論能力が大幅に進歩しました。
グループ相対ポリシーの最適化(GRPO)やルールベースの報酬メカニズムなどのアプローチは、テキストおよび画像ドメインの約束を示していますが、ビデオ理解への適用は依然として限られています。
このペーパーでは、一般的な能力を維持しながら時空間知覚を強化することを目的とした、ビデオMLLMSのGRPOを使用した補強微調整(RFT)の体系的な調査を提示します。
私たちの実験は、RFTがタスク固有の改善のために非常にデータ効率が高いことを明らかにしています。
限られたサンプルを備えた空間的知覚目標に関するマルチタスクRFTを通じて、私たちは、チャット能力を犠牲にすることなく時空間知覚タスクの最先端のパフォーマンスを達成する強力なビデオMLLMであるVideoChat-R1を開発します。
QWEN2.5-VL-7Bと比較して、VideoChat-R1は、時間的接地(+31.8)やオブジェクト追跡(+31.2)などのタスクで数倍のパフォーマンスを高めます。
さらに、VideoMME(+0.9)、MVBench(+1.0)、知覚テスト(+0.9)などの一般的なQAベンチマークで大幅に改善されます。
私たちの調査結果は、ビデオMLLMSの特殊なタスク強化のためのRFTの可能性を強調しています。
私たちの作品が、ビデオMLLMSの将来のRL研究のための貴重な洞察を提供することを願っています。

要約(オリジナル)

Recent advancements in reinforcement learning have significantly advanced the reasoning capabilities of multimodal large language models (MLLMs). While approaches such as Group Relative Policy Optimization (GRPO) and rule-based reward mechanisms demonstrate promise in text and image domains, their application to video understanding remains limited. This paper presents a systematic exploration of Reinforcement Fine-Tuning (RFT) with GRPO for video MLLMs, aiming to enhance spatio-temporal perception while maintaining general capabilities. Our experiments reveal that RFT is highly data-efficient for task-specific improvements. Through multi-task RFT on spatio-temporal perception objectives with limited samples, we develop VideoChat-R1, a powerful video MLLM that achieves state-of-the-art performance on spatio-temporal perception tasks without sacrificing chat ability, while exhibiting emerging spatio-temporal reasoning abilities. Compared to Qwen2.5-VL-7B, VideoChat-R1 boosts performance several-fold in tasks like temporal grounding (+31.8) and object tracking (+31.2). Additionally, it significantly improves on general QA benchmarks such as VideoMME (+0.9), MVBench (+1.0), and Perception Test (+0.9). Our findings underscore the potential of RFT for specialized task enhancement of Video MLLMs. We hope our work offers valuable insights for future RL research in video MLLMs.

arxiv情報

著者 Xinhao Li,Ziang Yan,Desen Meng,Lu Dong,Xiangyu Zeng,Yinan He,Yali Wang,Yu Qiao,Yi Wang,Limin Wang
発行日 2025-04-09 15:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning はコメントを受け付けていません

Two by Two: Learning Multi-Task Pairwise Objects Assembly for Generalizable Robot Manipulation

要約

家具アセンブリやコンポーネントフィッティングなどの3Dアセンブリタスクは、日常生活に重要な役割を果たし、将来のホームロボットに不可欠な能力を表しています。
既存のベンチマークとデータセットは、主に幾何学的な断片や工場部品の組み立てに焦点を当てており、日常のオブジェクトの相互作用やアセンブリの複雑さに対処するのに不足しています。
このギャップを埋めるために、毎日のペアワイズオブジェクトアセンブリ用の大規模な注釈付きデータセットである2BY2を紹介します。これは、ソケットに接続したり、花瓶に花を配置したり、トースターにパンを挿入するなど、実際のシナリオを反映した18の細かいタスクをカバーしています。
2BY2データセットには、1,034個のインスタンスと517個のペアワイズオブジェクトがポーズおよび対称注釈を含む517個のペアワイズオブジェクトが含まれており、オブジェクト間の機能的および空間的関係を説明しながら幾何学的形状を調整するアプローチが必要です。
2by2データセットを活用すると、アセンブリ制約のための等縁フィーチャを備えた2段階のSE(3)ポーズ推定方法を提案します。
以前の形状アセンブリ方法と比較して、私たちのアプローチは、2BY2データセットの18のタスクすべてにわたって最先端のパフォーマンスを実現します。
さらに、ロボット実験により、複雑な3Dアセンブリタスクに対する方法の信頼性と一般化能力がさらに検証されます。

要約(オリジナル)

3D assembly tasks, such as furniture assembly and component fitting, play a crucial role in daily life and represent essential capabilities for future home robots. Existing benchmarks and datasets predominantly focus on assembling geometric fragments or factory parts, which fall short in addressing the complexities of everyday object interactions and assemblies. To bridge this gap, we present 2BY2, a large-scale annotated dataset for daily pairwise objects assembly, covering 18 fine-grained tasks that reflect real-life scenarios, such as plugging into sockets, arranging flowers in vases, and inserting bread into toasters. 2BY2 dataset includes 1,034 instances and 517 pairwise objects with pose and symmetry annotations, requiring approaches that align geometric shapes while accounting for functional and spatial relationships between objects. Leveraging the 2BY2 dataset, we propose a two-step SE(3) pose estimation method with equivariant features for assembly constraints. Compared to previous shape assembly methods, our approach achieves state-of-the-art performance across all 18 tasks in the 2BY2 dataset. Additionally, robot experiments further validate the reliability and generalization ability of our method for complex 3D assembly tasks.

arxiv情報

著者 Yu Qi,Yuanchen Ju,Tianming Wei,Chi Chu,Lawson L. S. Wong,Huazhe Xu
発行日 2025-04-09 15:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Two by Two: Learning Multi-Task Pairwise Objects Assembly for Generalizable Robot Manipulation はコメントを受け付けていません

Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation

要約

自己学習学習(SSL)により、地球観察のためのVision Foundationモデルの開発が可能になり、多様なリモートセンシングタスク全体で強力な転送可能性が実証されています。
以前の作業では、ネットワークアーキテクチャとトレーニング戦略に焦点を当てていますが、特にトレーニング前のデータセットのバランスをとることと多様化におけるデータセットキュレーションの役割は、採用されていないままです。
EOでは、この課題は、衛星画像で一般的な冗長性と重尾の分布によって増幅され、偏った表現と非効率的なトレーニングにつながる可能性があります。
この作業では、データセットの多様性とバランスを最大化することにより、SSLの事前トレーニングを改善するために設計された動的なデータセット剪定戦略を提案します。
私たちの方法は、既存の機能抽出器を必要とせずにトレーニングセットを繰り返し改良し、キュレーションされたデータセットが制限または利用できないドメインに適しています。
海洋観測が支配する挑戦的なデータセットであるSentinel-1波モード(WV)合成開口レーダー(SAR)アーカイブに関するアプローチを実証します。
10年にわたるSentinel-1 WVアーカイブ全体でモデルをゼロから訓練します。
3つのダウンストリームタスクにわたって、我々の結果は、動的な剪定が計算効率と表現品質の両方を改善し、移動性が強くなることを示しています。
また、Nereusファミリーの最初のモデルであるNereus-Sar-1の重みをリリースします。これは、github.com/galeio-research/nereus-sar-models/で、SAR画像を使用した海洋観測と分析のための一連の基礎モデルです。

要約(オリジナル)

Self-supervised learning (SSL) has enabled the development of vision foundation models for Earth Observation (EO), demonstrating strong transferability across diverse remote sensing tasks. While prior work has focused on network architectures and training strategies, the role of dataset curation, especially in balancing and diversifying pre-training datasets, remains underexplored. In EO, this challenge is amplified by the redundancy and heavy-tailed distributions common in satellite imagery, which can lead to biased representations and inefficient training. In this work, we propose a dynamic dataset pruning strategy designed to improve SSL pre-training by maximizing dataset diversity and balance. Our method iteratively refines the training set without requiring a pre-existing feature extractor, making it well-suited for domains where curated datasets are limited or unavailable. We demonstrate our approach on the Sentinel-1 Wave Mode (WV) Synthetic Aperture Radar (SAR) archive, a challenging dataset dominated by ocean observations. We train models from scratch on the entire Sentinel-1 WV archive spanning 10 years. Across three downstream tasks, our results show that dynamic pruning improves both computational efficiency and representation quality, leading to stronger transferability. We also release the weights of Nereus-SAR-1, the first model in the Nereus family, a series of foundation models for ocean observation and analysis using SAR imagery, at github.com/galeio-research/nereus-sar-models/.

arxiv情報

著者 Thomas Kerdreux,Alexandre Tuel,Quentin Febvre,Alexis Mouche,Bertrand Chapron
発行日 2025-04-09 15:13:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation はコメントを受け付けていません

A Deep Single Image Rectification Approach for Pan-Tilt-Zoom Cameras

要約

広角レンズを備えたパンチルトズーム(PTZ)カメラは、監視に広く使用されていますが、それが固有の非線形歪みのために画像修正が必要です。
現在の深い学習アプローチは、通常、細粒の幾何学的な詳細を維持するのに苦労しており、その結果、不正確な修正が生じます。
このペーパーでは、広角画像修正のための新しいフレームワークである順方向の歪みと逆方向のワーピングネットワーク(FDBW-NET)を紹介します。
順方向の歪みモデルを使用してバレルが付随する画像を合成し、ピクセルの冗長性を減らし、ぼやけを防ぎます。
ネットワークは、注意メカニズムを備えたピラミッドコンテキストエンコーダーを採用して、幾何学的な詳細を含む逆方向の反り流を生成します。
次に、マルチスケールデコーダーを使用して、歪んだ機能と出力修正画像を復元します。
FDBW-NETのパフォーマンスは、パブリックベンチマーク、AirsimレンダリングPTZカメラ画像、および実際のPTZカメラデータセットの多様なデータセットで検証されています。
FDBW-NETが歪みの整流においてSOTAパフォーマンスを達成し、実用的な視覚的アプリケーションのPTZカメラの適応性を高めることを示しています。

要約(オリジナル)

Pan-Tilt-Zoom (PTZ) cameras with wide-angle lenses are widely used in surveillance but often require image rectification due to their inherent nonlinear distortions. Current deep learning approaches typically struggle to maintain fine-grained geometric details, resulting in inaccurate rectification. This paper presents a Forward Distortion and Backward Warping Network (FDBW-Net), a novel framework for wide-angle image rectification. It begins by using a forward distortion model to synthesize barrel-distorted images, reducing pixel redundancy and preventing blur. The network employs a pyramid context encoder with attention mechanisms to generate backward warping flows containing geometric details. Then, a multi-scale decoder is used to restore distorted features and output rectified images. FDBW-Net’s performance is validated on diverse datasets: public benchmarks, AirSim-rendered PTZ camera imagery, and real-scene PTZ camera datasets. It demonstrates that FDBW-Net achieves SOTA performance in distortion rectification, boosting the adaptability of PTZ cameras for practical visual applications.

arxiv情報

著者 Teng Xiao,Qi Hu,Qingsong Yan,Wei Liu,Zhiwei Ye,Fei Deng
発行日 2025-04-09 15:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Deep Single Image Rectification Approach for Pan-Tilt-Zoom Cameras はコメントを受け付けていません

Wheat3DGS: In-field 3D Reconstruction, Instance Segmentation and Phenotyping of Wheat Heads with Gaussian Splatting

要約

植物の形態学的特性の自動抽出は、ハイスループットフィールド表現型(HTFP)を通じて作物の繁殖と農業管理をサポートするために重要です。
マルチビューRGB画像に基づくソリューションは、スケーラビリティと手頃な価格のために魅力的であり、2Dアプローチが直接キャプチャできない体積測定を可能にします。
ニューラル放射輝度フィールド(NERF)のような高度な方法は有望であることが示されていますが、それらの適用は、少数の植物または臓器のみからの特性をカウントまたは抽出することに限定されています。
さらに、作物の収穫量を研究するための個々の小麦の頭のような複雑な構造を正確に測定し、閉塞と野外条件における作物天蓋の密な配置のために特に困難です。
3Dガウススプラッティング(3DGS)の最近の開発は、高品質の再構成と明示的なポイントベースの表現により、HTFPの有望な代替手段を提供します。
この論文では、3DGSとセグメントのすべてのモデル(SAM)を活用する新しいアプローチであるWheat3DGSを紹介します。
高解像度レーザースキャンデータに対する小麦ヘッド抽出の精度を検証し、帯域型ごとに15.1%、18.3%、および40.2%の絶対パーセンテージ誤差を平均して得ます。
NERFベースのアプローチと従来のMuti-Viewステレオ(MVS)との追加の比較を提供し、優れた結果を示します。
私たちのアプローチにより、大規模な主要な収量関連特性の迅速で非破壊的な測定が可能になり、作物の繁殖を加速し、小麦の発達の理解を改善することに大きな意味があります。

要約(オリジナル)

Automated extraction of plant morphological traits is crucial for supporting crop breeding and agricultural management through high-throughput field phenotyping (HTFP). Solutions based on multi-view RGB images are attractive due to their scalability and affordability, enabling volumetric measurements that 2D approaches cannot directly capture. While advanced methods like Neural Radiance Fields (NeRFs) have shown promise, their application has been limited to counting or extracting traits from only a few plants or organs. Furthermore, accurately measuring complex structures like individual wheat heads-essential for studying crop yields-remains particularly challenging due to occlusions and the dense arrangement of crop canopies in field conditions. The recent development of 3D Gaussian Splatting (3DGS) offers a promising alternative for HTFP due to its high-quality reconstructions and explicit point-based representation. In this paper, we present Wheat3DGS, a novel approach that leverages 3DGS and the Segment Anything Model (SAM) for precise 3D instance segmentation and morphological measurement of hundreds of wheat heads automatically, representing the first application of 3DGS to HTFP. We validate the accuracy of wheat head extraction against high-resolution laser scan data, obtaining per-instance mean absolute percentage errors of 15.1%, 18.3%, and 40.2% for length, width, and volume. We provide additional comparisons to NeRF-based approaches and traditional Muti-View Stereo (MVS), demonstrating superior results. Our approach enables rapid, non-destructive measurements of key yield-related traits at scale, with significant implications for accelerating crop breeding and improving our understanding of wheat development.

arxiv情報

著者 Daiwei Zhang,Joaquin Gajardo,Tomislav Medic,Isinsu Katircioglu,Mike Boss,Norbert Kirchgessner,Achim Walter,Lukas Roth
発行日 2025-04-09 15:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Wheat3DGS: In-field 3D Reconstruction, Instance Segmentation and Phenotyping of Wheat Heads with Gaussian Splatting はコメントを受け付けていません

SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets

要約

3D人間のデジタル化は、長い間、非常に追求されているが挑戦的な作業でした。
既存の方法は、単一または複数のビューから高品質の3Dデジタル人間を生成することを目的としていますが、主に現在のパラダイムと3Dヒト資産の希少性によって制約されたままです。
具体的には、最近のアプローチはいくつかのパラダイムに分類されます:最適化ベースとフィードフォワード(シングルビューの回帰と再構成によるマルチビュー生成の両方)。
ただし、それらは、閉塞と不可視のためにそれぞれ低次元平面を高次元空間にマッピングする際の低速、低品質、カスケードの推論、および曖昧さによって制限されています。
さらに、既存の3Dヒト資産は小規模であり、大規模なトレーニングには不十分です。
これらの課題に対処するために、3Dヒトのデジタル化のための潜在的な宇宙生成パラダイムを提案します。これは、DITベースの条件付き生成とともに、UV構造化されたVAEを介してマルチビュー画像をガウスに圧縮することを伴います。
さらに、合成データと組み合わせてマルチビュー最適化アプローチを採用して、大規模なトレーニングをサポートするために100万ドルの3Dガウス資産を含むHGS-1Mデータセットを構築します。
実験結果は、大規模なトレーニングを搭載したパラダイムが、複雑なテクスチャー、顔の詳細、ゆるい衣服の変形を備えた高品質の3Dヒトガウス派を生成することを示しています。

要約(オリジナル)

3D human digitization has long been a highly pursued yet challenging task. Existing methods aim to generate high-quality 3D digital humans from single or multiple views, but remain primarily constrained by current paradigms and the scarcity of 3D human assets. Specifically, recent approaches fall into several paradigms: optimization-based and feed-forward (both single-view regression and multi-view generation with reconstruction). However, they are limited by slow speed, low quality, cascade reasoning, and ambiguity in mapping low-dimensional planes to high-dimensional space due to occlusion and invisibility, respectively. Furthermore, existing 3D human assets remain small-scale, insufficient for large-scale training. To address these challenges, we propose a latent space generation paradigm for 3D human digitization, which involves compressing multi-view images into Gaussians via a UV-structured VAE, along with DiT-based conditional generation, we transform the ill-posed low-to-high-dimensional mapping problem into a learnable distribution shift, which also supports end-to-end inference. In addition, we employ the multi-view optimization approach combined with synthetic data to construct the HGS-1M dataset, which contains $1$ million 3D Gaussian assets to support the large-scale training. Experimental results demonstrate that our paradigm, powered by large-scale training, produces high-quality 3D human Gaussians with intricate textures, facial details, and loose clothing deformation.

arxiv情報

著者 Yuhang Yang,Fengqi Liu,Yixing Lu,Qin Zhao,Pingyu Wu,Wei Zhai,Ran Yi,Yang Cao,Lizhuang Ma,Zheng-Jun Zha,Junting Dong
発行日 2025-04-09 15:38:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets はコメントを受け付けていません