Depth Completion with Multiple Balanced Bases and Confidence for Dense Monocular SLAM

要約

単眼カメラに基づく密なスラムは、特にモバイルデバイスで実行される場合、AR/VRの分野で実際に膨大なアプリケーション値を持っています。
この論文では、携帯電話でも密なマッピングをオンラインで実行できるように、マルチベース深度表現を使用して、軽量の深さ完了ネットワークをまばらなスラムシステムに統合する新しい方法を提案します。
具体的には、従来のスパーススラムシステムの特性に合わせて調整されたBBC-NETと呼ばれる特異的に最適化されたマルチベース深度完了ネットワークを提示します。
BBC-NETは、既製のキーポイントベースのスラムシステムによって生成されるまばらなポイントを備えた単眼画像から、複数のバランスの取れたベースと信頼マップを予測できます。
最終的な深さは、対応する重みを調整することで最適化できる予測される深度塩基の線形組み合わせです。
重量を従来のスラムの最適化にシームレスに組み込み、効率と堅牢性を確保するために、一連の深さ重量係数を設計するため、ネットワークを用途の多いプラグインモジュールにし、さまざまな既存のスパーススラムシステムへの容易な統合を促進し、バンドル調整によりグローバルな深さの一貫性を大幅に向上させます。
メソッドの移植性を検証するために、BBC-NETを2つの代表的なSLAMシステムに統合します。
さまざまなデータセットでの実験結果は、提案された方法が最先端の方法よりも単眼密度マッピングでより良いパフォーマンスを達成することを示しています。
携帯電話で実行されているオンラインデモを提供します。これは、実際のシナリオで提案された方法の効率とマッピングの品質を検証します。

要約(オリジナル)

Dense SLAM based on monocular cameras does indeed have immense application value in the field of AR/VR, especially when it is performed on a mobile device. In this paper, we propose a novel method that integrates a light-weight depth completion network into a sparse SLAM system using a multi-basis depth representation, so that dense mapping can be performed online even on a mobile phone. Specifically, we present a specifically optimized multi-basis depth completion network, called BBC-Net, tailored to the characteristics of traditional sparse SLAM systems. BBC-Net can predict multiple balanced bases and a confidence map from a monocular image with sparse points generated by off-the-shelf keypoint-based SLAM systems. The final depth is a linear combination of predicted depth bases that can be optimized by tuning the corresponding weights. To seamlessly incorporate the weights into traditional SLAM optimization and ensure efficiency and robustness, we design a set of depth weight factors, which makes our network a versatile plug-in module, facilitating easy integration into various existing sparse SLAM systems and significantly enhancing global depth consistency through bundle adjustment. To verify the portability of our method, we integrate BBC-Net into two representative SLAM systems. The experimental results on various datasets show that the proposed method achieves better performance in monocular dense mapping than the state-of-the-art methods. We provide an online demo running on a mobile phone, which verifies the efficiency and mapping quality of the proposed method in real-world scenarios.

arxiv情報

著者 Weijian Xie,Guanyi Chu,Quanhao Qian,Yihao Yu,Hai Li,Danpeng Chen,Shangjin Zhai,Nan Wang,Hujun Bao,Guofeng Zhang
発行日 2025-03-07 15:46:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Depth Completion with Multiple Balanced Bases and Confidence for Dense Monocular SLAM はコメントを受け付けていません

State-of-the-Art Stroke Lesion Segmentation at 1/1000th of Parameters

要約

効率的かつ正確な脳の病変のセグメンテーションは、医療画像分析における依然として課題です。
この作業では、パラメーター効率の高いセグメンテーションモデルであるMeshNetを再訪し、エンコーダーデコダー構造を備えた新しいマルチスケール拡張パターンを導入します。
このイノベーションにより、従来のダウンサンプリング、アップサンプリング、スキップ接続なしで、幅広いコンテキスト情報と細かい詳細をキャプチャすることができます。
以前のアプローチサブボリュームまたはスライスの処理とは異なり、全脳$ 256^3 $ MRIボリュームで直接動作します。
Aphasia Recovery Cohort(ARC)データセットの評価は、Meshnetがパラメーターの1/1000でMednextやU-Mambaなどの最先端のアーキテクチャに対して優れたまたは同等のサイコロスコアを達成することを示しています。
私たちの結果は、Meshnetの効率とパフォーマンスの強力なバランスを検証し、Webベースのアプリケーションや、高度な医療画像分析ツールの広範な展開のための新しい可能性などのリソース制限環境に特に適しています。

要約(オリジナル)

Efficient and accurate whole-brain lesion segmentation remains a challenge in medical image analysis. In this work, we revisit MeshNet, a parameter-efficient segmentation model, and introduce a novel multi-scale dilation pattern with an encoder-decoder structure. This innovation enables capturing broad contextual information and fine-grained details without traditional downsampling, upsampling, or skip-connections. Unlike previous approaches processing subvolumes or slices, we operate directly on whole-brain $256^3$ MRI volumes. Evaluations on the Aphasia Recovery Cohort (ARC) dataset demonstrate that MeshNet achieves superior or comparable DICE scores to state-of-the-art architectures such as MedNeXt and U-MAMBA at 1/1000th of parameters. Our results validate MeshNet’s strong balance of efficiency and performance, making it particularly suitable for resource-limited environments such as web-based applications and opening new possibilities for the widespread deployment of advanced medical image analysis tools.

arxiv情報

著者 Alex Fedorov,Yutong Bu,Xiao Hu,Chris Rorden,Sergey Plis
発行日 2025-03-07 15:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | State-of-the-Art Stroke Lesion Segmentation at 1/1000th of Parameters はコメントを受け付けていません

S4M: Segment Anything with 4 Extreme Points

要約

セグメントAnything Model(SAM)は、オープンセットのインタラクティブな画像セグメンテーションに革命をもたらし、医療ドメインの多数のアダプターを刺激しました。
ただし、SAMは主に、ポイントやバウンドボックスなどのスパースプロンプトに依存しています。これは、特に内視鏡画像では、正確なローカリゼーションが重要であり、既存のプロンプトがオブジェクトの境界を効果的にキャプチャするのに苦労している内視鏡画像で、細粒のインスタンスセグメンテーションの最適ではない場合があります。
これに対処するために、S4M(4つの極端なポイントを持つすべてのセグメント)を導入します。これは、極端なポイント(インスタンスのトップ、ボトム、左、および右ポイント)を活用することでSAMを増強します。
これらのポイントは、ボックスプロンプトに代わるより速く、構造化された代替品を識別し、提供するために直感的です。
ただし、サムがセマンティックな役割を解釈できないため、極端なポイントのna \ ‘iveの使用はパフォーマンスを低下させます。
これを解決するために、専用の学習可能な埋め込みを導入し、モデルが極端なポイントと一般的なフリーフォームポイントとそれらの空間的関係に関するより良い理由を区別できるようにします。
さらに、Canvasモジュールを介して補助トレーニングタスクを提案します。これは、粗いインスタンスマスクを予測するために、視力入力なしでプロンプトのみで動作します。
これにより、モデルが極端な点とマスク分布の関係を内面化することを促進し、より堅牢なセグメンテーションにつながります。
S4Mは、3つの内視鏡手術データセットで他のSAMベースのアプローチを上回り、複雑なシナリオでその有効性を示しています。
最後に、外科的内視鏡ビデオに関する人間の注釈研究を通じてアプローチを検証し、極端なポイントが境界ボックスよりも獲得するのが速いことを確認します。

要約(オリジナル)

The Segment Anything Model (SAM) has revolutionized open-set interactive image segmentation, inspiring numerous adapters for the medical domain. However, SAM primarily relies on sparse prompts such as point or bounding box, which may be suboptimal for fine-grained instance segmentation, particularly in endoscopic imagery, where precise localization is critical and existing prompts struggle to capture object boundaries effectively. To address this, we introduce S4M (Segment Anything with 4 Extreme Points), which augments SAM by leveraging extreme points — the top-, bottom-, left-, and right-most points of an instance — prompts. These points are intuitive to identify and provide a faster, structured alternative to box prompts. However, a na\’ive use of extreme points degrades performance, due to SAM’s inability to interpret their semantic roles. To resolve this, we introduce dedicated learnable embeddings, enabling the model to distinguish extreme points from generic free-form points and better reason about their spatial relationships. We further propose an auxiliary training task through the Canvas module, which operates solely on prompts — without vision input — to predict a coarse instance mask. This encourages the model to internalize the relationship between extreme points and mask distributions, leading to more robust segmentation. S4M outperforms other SAM-based approaches on three endoscopic surgical datasets, demonstrating its effectiveness in complex scenarios. Finally, we validate our approach through a human annotation study on surgical endoscopic videos, confirming that extreme points are faster to acquire than bounding boxes.

arxiv情報

著者 Adrien Meyer,Lorenzo Arboit,Giuseppe Massimiani,Francesco Brucchi,Luca Emanuele Amodio,Didier Mutter,Nicolas Padoy
発行日 2025-03-07 16:02:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | S4M: Segment Anything with 4 Extreme Points はコメントを受け付けていません

Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset

要約

マシンの非学習は、トレーニングデータの特定の情報を忘れるための効果的な戦略として浮上しています。
ただし、視覚データの統合の増加により、ビジョン言語モデル(VLM)におけるプライバシーの懸念は、採用不足のままです。
これに対処するために、フェイシャルアイデンティティの非学習ベンチマーク(fiubench)を紹介します。これは、忘れられる権利の下で未学習アルゴリズムの有効性を堅牢に評価するために設計された新しいVLM未学習ベンチマークです。
具体的には、架空の顔のアイデンティティVQAデータセットを構築することにより、VLMの未学習タスクを策定し、情報源とその露出レベルを正確に制御するように設計された2段階評価パイプラインを適用します。
評価に関しては、VLMは同じ意味の意味で質問をするさまざまな形式の方法をサポートしているため、メンバーシップ推論攻撃や、アルゴリズムのパフォーマンスを評価するために慎重に設計された敵対的なプライバシー攻撃などの堅牢な評価メトリックも提供します。
Fiubench内の4つのベースラインVLMの未学習アルゴリズムの評価を通じて、すべての方法は、モデルユーティリティと忘却の品質の間の重要なトレードオフを伴う、学習の未定パフォーマンスにおいて制限されたままであることがわかります。
さらに、私たちの調査結果は、堅牢な評価のためのプライバシー攻撃の重要性も強調しています。
Fiubenchが、より効果的なVLMの非学習アルゴリズムの開発において進歩を促進することを願っています。

要約(オリジナル)

Machine unlearning has emerged as an effective strategy for forgetting specific information in the training data. However, with the increasing integration of visual data, privacy concerns in Vision Language Models (VLMs) remain underexplored. To address this, we introduce Facial Identity Unlearning Benchmark (FIUBench), a novel VLM unlearning benchmark designed to robustly evaluate the effectiveness of unlearning algorithms under the Right to be Forgotten setting. Specifically, we formulate the VLM unlearning task via constructing the Fictitious Facial Identity VQA dataset and apply a two-stage evaluation pipeline that is designed to precisely control the sources of information and their exposure levels. In terms of evaluation, since VLM supports various forms of ways to ask questions with the same semantic meaning, we also provide robust evaluation metrics including membership inference attacks and carefully designed adversarial privacy attacks to evaluate the performance of algorithms. Through the evaluation of four baseline VLM unlearning algorithms within FIUBench, we find that all methods remain limited in their unlearning performance, with significant trade-offs between model utility and forget quality. Furthermore, our findings also highlight the importance of privacy attacks for robust evaluations. We hope FIUBench will drive progress in developing more effective VLM unlearning algorithms.

arxiv情報

著者 Yingzi Ma,Jiongxiao Wang,Fei Wang,Siyuan Ma,Jiazhao Li,Jinsheng Pan,Xiujun Li,Furong Huang,Lichao Sun,Bo Li,Yejin Choi,Muhao Chen,Chaowei Xiao
発行日 2025-03-07 16:05:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset はコメントを受け付けていません

AutoLUT: LUT-Based Image Super-Resolution with Automatic Sampling and Adaptive Residual Learning

要約

近年、HI-DPI画面の人気の高まりにより、高解像度の画像に対する需要が高まっています。
ただし、EDGEデバイスの限られた計算能力は、複雑な超解像度ニューラルネットワークを展開する際に課題をもたらし、効率的な方法の必要性を強調しています。
以前の作品は大きな進歩を遂げていますが、ピクセルレベルの情報を完全に活用していません。
さらに、固定サンプリングパターンへの依存により、精度と低解像度画像で詳細をキャプチャする機能の両方が制限されます。
これらの課題に対処するために、ルックアップテーブル(LUT)ベースのスーパー解像度ネットワークでピクセル情報を効果的にキャプチャして活用するように設計された2つのプラグアンドプレイモジュールを導入します。
私たちの方法では、自動サンプリング(AutoSample)を紹介します。これは、ピクセルのバリエーションに適応し、推論コストを追加せずに受容フィールドを拡張するためにトレーニング中にサンプリングの重みが自動的に学習される柔軟なLUTサンプリングアプローチです。
また、適応型残留学習(ADARL)を組み込み、層間接続を強化し、詳細な情報の流れを可能にし、詳細を再構築するネットワークの能力を向上させます。
私たちの方法は、同様のストレージサイズを維持しながら、MulutとSPF-LUTの両方で大幅なパフォーマンスの改善を実現します。
具体的には、Mulutの場合、5つのデータセットで平均して約+0.20 dB改善のPSNR改善を達成します。
SPF-LUTの場合、ストレージスペースが50%以上減少し、推論時間が約2/3の短縮されているため、この方法はオリジナルに匹敵するパフォーマンスを維持しています。
このコードは、https://github.com/superkenvery/autolutで入手できます。

要約(オリジナル)

In recent years, the increasing popularity of Hi-DPI screens has driven a rising demand for high-resolution images. However, the limited computational power of edge devices poses a challenge in deploying complex super-resolution neural networks, highlighting the need for efficient methods. While prior works have made significant progress, they have not fully exploited pixel-level information. Moreover, their reliance on fixed sampling patterns limits both accuracy and the ability to capture fine details in low-resolution images. To address these challenges, we introduce two plug-and-play modules designed to capture and leverage pixel information effectively in Look-Up Table (LUT) based super-resolution networks. Our method introduces Automatic Sampling (AutoSample), a flexible LUT sampling approach where sampling weights are automatically learned during training to adapt to pixel variations and expand the receptive field without added inference cost. We also incorporate Adaptive Residual Learning (AdaRL) to enhance inter-layer connections, enabling detailed information flow and improving the network’s ability to reconstruct fine details. Our method achieves significant performance improvements on both MuLUT and SPF-LUT while maintaining similar storage sizes. Specifically, for MuLUT, we achieve a PSNR improvement of approximately +0.20 dB improvement on average across five datasets. For SPF-LUT, with more than a 50% reduction in storage space and about a 2/3 reduction in inference time, our method still maintains performance comparable to the original. The code is available at https://github.com/SuperKenVery/AutoLUT.

arxiv情報

著者 Yuheng Xu,Shijie Yang,Xin Liu,Jie Liu,Jie Tang,Gangshan Wu
発行日 2025-03-07 16:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | AutoLUT: LUT-Based Image Super-Resolution with Automatic Sampling and Adaptive Residual Learning はコメントを受け付けていません

Disconnect to Connect: A Data Augmentation Method for Improving Topology Accuracy in Image Segmentation

要約

薄い管状構造(血管など)の正確なセグメンテーションは、深いニューラルネットワークにとって困難です。
これらのネットワークは個々のピクセルを分類し、わずかな誤分類でさえこれらの構造内の薄い接続を破壊する可能性があります。
トポロジー損失関数などのトポロジの精度を改善するための既存の方法は、取得が困難な非常に正確でトポロジ式のトレーニングラベルに依存しています。
これは、画像、特に3D画像への注釈に非常に面倒で時間がかかるためです。
画像解像度が低く、コントラストは、管状構造が切断されているように見えることにより、注釈をさらに複雑にします。
Coletraを提示します。これは、壊れた構造が実際に接続されているという事前知識をモデルに統合するデータ増強戦略です。
これは、元のラベルを維持しながら、切断された構造の外観を持つ画像を作成することによって達成されます。
さまざまなアーキテクチャ、損失関数、およびデータセットを含む当社の広範な実験は、Coletraがセグメンテーションがトポロジカルでより正確であることを示している一方で、サイコロ係数とHausdorff距離を改善することが多いことを示しています。
Coletraのハイパーパラメーターは直感的に調整し、私たちの感度分析は、Coletraがこれらのハイパーパラメーターの変化に対して堅牢であることを示しています。
また、トポロジーの精度に焦点を当てた画像セグメンテーション方法に特に適したデータセットをリリースします。
Coletraのコードはhttps://github.com/jmlipman/coletraにあります。

要約(オリジナル)

Accurate segmentation of thin, tubular structures (e.g., blood vessels) is challenging for deep neural networks. These networks classify individual pixels, and even minor misclassifications can break the thin connections within these structures. Existing methods for improving topology accuracy, such as topology loss functions, rely on very precise, topologically-accurate training labels, which are difficult to obtain. This is because annotating images, especially 3D images, is extremely laborious and time-consuming. Low image resolution and contrast further complicates the annotation by causing tubular structures to appear disconnected. We present CoLeTra, a data augmentation strategy that integrates to the models the prior knowledge that structures that appear broken are actually connected. This is achieved by creating images with the appearance of disconnected structures while maintaining the original labels. Our extensive experiments, involving different architectures, loss functions, and datasets, demonstrate that CoLeTra leads to segmentations topologically more accurate while often improving the Dice coefficient and Hausdorff distance. CoLeTra’s hyper-parameters are intuitive to tune, and our sensitivity analysis shows that CoLeTra is robust to changes in these hyper-parameters. We also release a dataset specifically suited for image segmentation methods with a focus on topology accuracy. CoLetra’s code can be found at https://github.com/jmlipman/CoLeTra.

arxiv情報

著者 Juan Miguel Valverde,Maja Østergaard,Adrian Rodriguez-Palomo,Peter Alling Strange Vibe,Nina Kølln Wittig,Henrik Birkedal,Anders Bjorholm Dahl
発行日 2025-03-07 16:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Disconnect to Connect: A Data Augmentation Method for Improving Topology Accuracy in Image Segmentation はコメントを受け付けていません

Pi-GPS: Enhancing Geometry Problem Solving by Unleashing the Power of Diagrammatic Information

要約

ジオメトリの問題解決は、インテリジェントな教育分野での潜在的なアプリケーションのために、注目を集めています。
テキストはしばしば図が明確にできる曖昧さを導入することが多いという観察に触発されました。このホワイトペーパーは、先行研究で見過ごされている側面であるテキストのあいまいさを解決するために、図式的な情報の力を解き放つ斬新なフレームワークであるPI-GPSを提示します。
具体的には、整流器と検証剤を含むマイクロモジュールを設計します。整流器はMLLMSを使用して、図式的なコンテキストに基づいてテキストを削除しますが、検証者は幾何学的ルールへの整流の出力の遵守を保証し、モデルの幻覚を軽減します。
さらに、明確な正式な言語に基づいて、定理予測因子におけるLLMSの影響を調査します。
経験的結果は、PI-GPSが最先端のモデルを上回り、以前の神経系シンボリックアプローチでジオメトリ3Kのほぼ10 \%の改善を達成することを示しています。
この作業が、マルチモーダル数学的推論におけるテキストの曖昧さを解決することの重要性を強調していることを願っています。これは、パフォーマンスを制限する重要な要因です。

要約(オリジナル)

Geometry problem solving has garnered increasing attention due to its potential applications in intelligent education field. Inspired by the observation that text often introduces ambiguities that diagrams can clarify, this paper presents Pi-GPS, a novel framework that unleashes the power of diagrammatic information to resolve textual ambiguities, an aspect largely overlooked in prior research. Specifically, we design a micro module comprising a rectifier and verifier: the rectifier employs MLLMs to disambiguate text based on the diagrammatic context, while the verifier ensures the rectified output adherence to geometric rules, mitigating model hallucinations. Additionally, we explore the impact of LLMs in theorem predictor based on the disambiguated formal language. Empirical results demonstrate that Pi-GPS surpasses state-of-the-art models, achieving a nearly 10\% improvement on Geometry3K over prior neural-symbolic approaches. We hope this work highlights the significance of resolving textual ambiguity in multimodal mathematical reasoning, a crucial factor limiting performance.

arxiv情報

著者 Junbo Zhao,Ting Zhang,Jiayu Sun,Mi Tian,Hua Huang
発行日 2025-03-07 16:15:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Pi-GPS: Enhancing Geometry Problem Solving by Unleashing the Power of Diagrammatic Information はコメントを受け付けていません

Stereo Any Video: Temporally Consistent Stereo Matching

要約

このペーパーでは、ビデオステレオマッチングの強力なフレームワークであるStereo Any Any Videoを紹介します。
カメラのポーズや光学フローなどの補助情報に依存せずに、空間的に正確かつ時間的に一貫した格差を推定できます。
強力な能力は、単眼のビデオ深度モデルの豊富な事前に駆動されます。これは、安定した表現を生成するための畳み込み機能と統合されています。
パフォーマンスをさらに向上させるために、主要なアーキテクチャの革新が導入されます。滑らかで堅牢なマッチングコストボリュームを構築するすべてのペア相関、および時間的一貫性を改善する一時的な凸状のアップサンプリングを構築します。
これらのコンポーネントは、堅牢性、精度、および時間的一貫性を集合的に保証し、ビデオステレオマッチングで新しい標準を設定します。
広範な実験は、我々の方法が、ゼロショット設定で定性的および定量的に複数のデータセットで最先端のパフォーマンスを達成し、実際の屋内および屋外シナリオへの強力な一般化を達成することを示しています。

要約(オリジナル)

This paper introduces Stereo Any Video, a powerful framework for video stereo matching. It can estimate spatially accurate and temporally consistent disparities without relying on auxiliary information such as camera poses or optical flow. The strong capability is driven by rich priors from monocular video depth models, which are integrated with convolutional features to produce stable representations. To further enhance performance, key architectural innovations are introduced: all-to-all-pairs correlation, which constructs smooth and robust matching cost volumes, and temporal convex upsampling, which improves temporal coherence. These components collectively ensure robustness, accuracy, and temporal consistency, setting a new standard in video stereo matching. Extensive experiments demonstrate that our method achieves state-of-the-art performance across multiple datasets both qualitatively and quantitatively in zero-shot settings, as well as strong generalization to real-world indoor and outdoor scenarios.

arxiv情報

著者 Junpeng Jing,Weixun Luo,Ye Mao,Krystian Mikolajczyk
発行日 2025-03-07 16:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Stereo Any Video: Temporally Consistent Stereo Matching はコメントを受け付けていません

TomatoScanner: phenotyping tomato fruit based on only RGB image

要約

トマト温室では、表現型の測定は、研究者や農家が作物の成長を監視するために意味があり、それにより環境条件を正確に制御し、より良い品質とより高い収量につながります。
従来の表現型は主に手動測定に依存していますが、これは正確ですが非効率的で、より重要なことに、人々の健康と安全を危険にさらすことです。
いくつかの研究で、手動の表現型を置き換えるためのコンピュータービジョンベースの方法を調査しました。
ただし、2Dベースは追加のキャリブレーションを必要とするか、果物に破壊を引き起こすか、限られた意味のない特性のみを測定することができます。
3Dベースには、ほとんどの農家にとって高価で受け入れられない追加の深度カメラが必要です。
このホワイトペーパーでは、Tomatoscannerというタイトルの非接触トマトフルーツの表現タイプ化方法を提案します。ここでは、RGB画像が入力に必要なすべてです。
まず、ピクセル機能は、個々の分離とポーズ修正の前処理を伴う提案されたエッジヨーロのインスタンスセグメンテーションによって抽出されます。
第二に、深さの特徴は、深度プロの深さ推定によって抽出されます。
第三に、ピクセルと深さの特徴が融合して、表現型の結果が現実になります。
自己構築されたトマトの表現型データセットを確立して、幅、高さ、垂直面積、および体積で優れた表現型を達成し、相対誤差の中央値がそれぞれ5.63%、7.03%、-0.64%、37.06%で優れた表現型を達成します。
エッジョーロにEdgeLossとEdgeBoostの3つの革新的なモジュールを提案して追加して、エッジ部分のセグメンテーション精度を強化します。
精度と平均エッジの誤差は、それぞれ0.943および5.641%から0.986と2.963%に大幅に改善します。
一方、Edgeyoloは軽量で効率的であり、48.7 mの重量サイズと76.34 fpsを備えています。
コードとデータセット:https://github.com/alextraveling/tomatoscanner。

要約(オリジナル)

In tomato greenhouse, phenotypic measurement is meaningful for researchers and farmers to monitor crop growth, thereby precisely control environmental conditions in time, leading to better quality and higher yield. Traditional phenotyping mainly relies on manual measurement, which is accurate but inefficient, more importantly, endangering the health and safety of people. Several studies have explored computer vision-based methods to replace manual phenotyping. However, the 2D-based need extra calibration, or cause destruction to fruit, or can only measure limited and meaningless traits. The 3D-based need extra depth camera, which is expensive and unacceptable for most farmers. In this paper, we propose a non-contact tomato fruit phenotyping method, titled TomatoScanner, where RGB image is all you need for input. First, pixel feature is extracted by instance segmentation of our proposed EdgeYOLO with preprocessing of individual separation and pose correction. Second, depth feature is extracted by depth estimation of Depth Pro. Third, pixel and depth feature are fused to output phenotype results in reality. We establish self-built Tomato Phenotype Dataset to test TomatoScanner, which achieves excellent phenotyping on width, height, vertical area and volume, with median relative error of 5.63%, 7.03%, -0.64% and 37.06%, respectively. We propose and add three innovative modules – EdgeAttention, EdgeLoss and EdgeBoost – into EdgeYOLO, to enhance the segmentation accuracy on edge portion. Precision and mean Edge Error greatly improve from 0.943 and 5.641% to 0.986 and 2.963%, respectively. Meanwhile, EdgeYOLO keeps lightweight and efficient, with 48.7 M weights size and 76.34 FPS. Codes and datasets: https://github.com/AlexTraveling/TomatoScanner.

arxiv情報

著者 Xiaobei Zhao,Xiangrong Zeng,Yihang Ma,Pengjin Tang,Xiang Li
発行日 2025-03-07 16:47:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.CV, I.4.6 | TomatoScanner: phenotyping tomato fruit based on only RGB image はコメントを受け付けていません

Novel Object 6D Pose Estimation with a Single Reference View

要約

既存の新規オブジェクト6Dポーズ推定方法は、通常、CADモデルまたは密な参照ビューに依存していますが、どちらも取得が困難です。
単一の参照ビューのみを使用する方がスケーラブルですが、大きなポーズの不一致と限られた幾何学的および空間情報のために挑戦的です。
これらの問題に対処するために、単一参照ベースの新規オブジェクト6D(SINREF-6D)ポーズ推定方法を提案します。
私たちの重要なアイデアは、状態空間モデル(SSM)に基づいて、カメラ座標系でポイントごとのアライメントを繰り返し確立することです。
具体的には、反復的なカメラ空間点でのアライメントは、大規模なポーズの不一致を効果的に処理できますが、提案されているRGBとポイントSSMは、単一ビューから長距離依存関係と空間情報をキャプチャし、線形の複雑さと優れた空間モデリング機能を提供できます。
合成データで事前に訓練されたら、SINREF-6Dは、再訓練またはCADモデルを必要とせずに、単一の参照ビューのみを使用して、新しいオブジェクトの6Dポーズを推定できます。
6つの人気のあるデータセットと実際のロボットシーンでの広範な実験は、より困難な単一の参照設定で動作しているにもかかわらず、CADベースの参照ビューベースの方法でパフォーマンスを実現することを示しています。
コードはhttps://github.com/cnjianliu/sinref-6dでリリースされます。

要約(オリジナル)

Existing novel object 6D pose estimation methods typically rely on CAD models or dense reference views, which are both difficult to acquire. Using only a single reference view is more scalable, but challenging due to large pose discrepancies and limited geometric and spatial information. To address these issues, we propose a Single-Reference-based novel object 6D (SinRef-6D) pose estimation method. Our key idea is to iteratively establish point-wise alignment in the camera coordinate system based on state space models (SSMs). Specifically, iterative camera-space point-wise alignment can effectively handle large pose discrepancies, while our proposed RGB and Points SSMs can capture long-range dependencies and spatial information from a single view, offering linear complexity and superior spatial modeling capability. Once pre-trained on synthetic data, SinRef-6D can estimate the 6D pose of a novel object using only a single reference view, without requiring retraining or a CAD model. Extensive experiments on six popular datasets and real-world robotic scenes demonstrate that we achieve on-par performance with CAD-based and dense reference view-based methods, despite operating in the more challenging single reference setting. Code will be released at https://github.com/CNJianLiu/SinRef-6D.

arxiv情報

著者 Jian Liu,Wei Sun,Kai Zeng,Jin Zheng,Hui Yang,Lin Wang,Hossein Rahmani,Ajmal Mian
発行日 2025-03-07 17:00:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Novel Object 6D Pose Estimation with a Single Reference View はコメントを受け付けていません