QArtSR: Quantization via Reverse-Module and Timestep-Retraining in One-Step Diffusion based Image Super-Resolution

要約

ワンステップ拡散ベースの画像スーパー解像度(OSDSR)モデルは、最近ではますます優れたパフォーマンスを示しています。
ただし、それらの除去ステップは1に削減され、コストをさらに削減するために8ビットに量子化できますが、OSDSRが低ビットに量子化する可能性は依然として重要な可能性があります。
量子化されたOSDSRのより多くの可能性を調査するために、QARTSRという名前のOSDSRの効率的な方法、逆モジュール、およびタイムステップ再抑制を介した量子化を提案します。
まず、量子化されたモデルのパフォーマンスに対するタイムステップ値の影響を調査します。
次に、Timestep Retraining Quantization(TRQ)を提案し、量子化されたモデルを調整するためのモジュール量量化(RPQ)戦略を逆転させます。
一方、モジュールと画像の損失を採用して、すべての量子化されたモジュールを更新します。
元の重みを除く、量子化微調整コンポーネントのパラメーターのみを更新します。
すべてのモジュールが完全に微調整されるようにするために、モジュールごとの段階の後に拡張エンドツーエンドトレーニングを追加します。
4ビットおよび2ビットの量子化実験結果は、QARTSRが最近の先導的比較方法に対して優れた効果を得ることを示しています。
4ビットQARTSRのパフォーマンスは、全精度のパフォーマンスに近いものです。
コードはhttps://github.com/libozhu03/qartsrでリリースされます。

要約(オリジナル)

One-step diffusion-based image super-resolution (OSDSR) models are showing increasingly superior performance nowadays. However, although their denoising steps are reduced to one and they can be quantized to 8-bit to reduce the costs further, there is still significant potential for OSDSR to quantize to lower bits. To explore more possibilities of quantized OSDSR, we propose an efficient method, Quantization via reverse-module and timestep-retraining for OSDSR, named QArtSR. Firstly, we investigate the influence of timestep value on the performance of quantized models. Then, we propose Timestep Retraining Quantization (TRQ) and Reversed Per-module Quantization (RPQ) strategies to calibrate the quantized model. Meanwhile, we adopt the module and image losses to update all quantized modules. We only update the parameters in quantization finetuning components, excluding the original weights. To ensure that all modules are fully finetuned, we add extended end-to-end training after per-module stage. Our 4-bit and 2-bit quantization experimental results indicate that QArtSR obtains superior effects against the recent leading comparison methods. The performance of 4-bit QArtSR is close to the full-precision one. Our code will be released at https://github.com/libozhu03/QArtSR.

arxiv情報

著者 Libo Zhu,Haotong Qin,Kaicheng Yang,Wenbo Li,Yong Guo,Yulun Zhang,Susanto Rahardja,Xiaokang Yang
発行日 2025-03-07 17:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | QArtSR: Quantization via Reverse-Module and Timestep-Retraining in One-Step Diffusion based Image Super-Resolution はコメントを受け付けていません

DepthCues: Evaluating Monocular Depth Perception in Large Vision Models

要約

大規模な事前訓練を受けたビジョンモデルはますます一般的になりつつあり、さまざまな下流タスクに利益をもたらす表現力豊かで一般化可能な視覚表現を提供しています。
これらのモデルの緊急特性に関する最近の研究により、特に深さの知覚の文脈における高レベルの幾何学的理解が明らかになりました。
ただし、これらのモデルでは、事前トレーニング中に提供される明示的な深さの監督なしで、深さの知覚がどのように発生するかは不明のままです。
これを調査するために、人間の視覚システムで使用されているものと同様に、単眼の深さのキューがこれらのモデルに出現するかどうかを調べます。
深さキューの理解を評価するように設計された新しいベンチマーク、深さキューを紹介し、20の多様で代表的な訓練を受けた視力モデルにわたって発見を提示します。
私たちの分析は、より最近のより大きなモデルで人間のような深さのキューが出現することを示しています。
また、深度環で微調整することにより、大型ビジョンモデルの深さ知覚の向上を調査し、深さの監督がなくても深さの推定が改善されることを発見します。
さらなる研究をサポートするために、私たちのベンチマークと評価コードは、ビジョンモデルの深さ認識を研究するために公開されます。

要約(オリジナル)

Large-scale pre-trained vision models are becoming increasingly prevalent, offering expressive and generalizable visual representations that benefit various downstream tasks. Recent studies on the emergent properties of these models have revealed their high-level geometric understanding, in particular in the context of depth perception. However, it remains unclear how depth perception arises in these models without explicit depth supervision provided during pre-training. To investigate this, we examine whether the monocular depth cues, similar to those used by the human visual system, emerge in these models. We introduce a new benchmark, DepthCues, designed to evaluate depth cue understanding, and present findings across 20 diverse and representative pre-trained vision models. Our analysis shows that human-like depth cues emerge in more recent larger models. We also explore enhancing depth perception in large vision models by fine-tuning on DepthCues, and find that even without dense depth supervision, this improves depth estimation. To support further research, our benchmark and evaluation code will be made publicly available for studying depth perception in vision models.

arxiv情報

著者 Duolikun Danier,Mehmet Aygün,Changjian Li,Hakan Bilen,Oisin Mac Aodha
発行日 2025-03-07 17:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DepthCues: Evaluating Monocular Depth Perception in Large Vision Models はコメントを受け付けていません

Anti-Diffusion: Preventing Abuse of Modifications of Diffusion-Based Models

要約

拡散ベースの技術は、画像生成と編集タスクで顕著な成功を示していますが、それらの虐待は深刻なマイナスの社会的影響につながる可能性があります。
最近、拡散ベースの方法の乱用に対する防御を提供するために、いくつかの作品が提案されています。
ただし、手動で定義されたプロンプトまたは安定した拡散(SD)バージョンにより、特定のシナリオでは保護が制限される場合があります。
さらに、これらの方法は、チューニング方法のみに焦点を当て、編集方法を見下ろすことで大きな脅威をもたらす可能性があります。
この作業では、チューニングと編集手法の両方に適用される、一般的な拡散ベースの方法向けに設計されたプライバシー保護システムである抗拡散を提案します。
防御パフォーマンスに関する手動で定義されたプロンプトの制限を軽減するために、元の画像の正確な表現を可能にするプロンプトチューニング(PT)戦略を導入します。
チューニング方法と編集方法の両方に対する防御を提供するために、保護された画像のセマンティック情報を混乱させるために、セマンティック妨害損失(SDL)を提案します。
編集方法に対する防御に関する限られた研究を考えると、Defense-Editという名前のデータセットを開発して、さまざまな方法の防衛パフォーマンスを評価します。
実験は、私たちの抗拡散が、さまざまなシナリオで幅広い拡散ベースの技術にわたって優れた防御性能を達成することを示しています。

要約(オリジナル)

Although diffusion-based techniques have shown remarkable success in image generation and editing tasks, their abuse can lead to severe negative social impacts. Recently, some works have been proposed to provide defense against the abuse of diffusion-based methods. However, their protection may be limited in specific scenarios by manually defined prompts or the stable diffusion (SD) version. Furthermore, these methods solely focus on tuning methods, overlooking editing methods that could also pose a significant threat. In this work, we propose Anti-Diffusion, a privacy protection system designed for general diffusion-based methods, applicable to both tuning and editing techniques. To mitigate the limitations of manually defined prompts on defense performance, we introduce the prompt tuning (PT) strategy that enables precise expression of original images. To provide defense against both tuning and editing methods, we propose the semantic disturbance loss (SDL) to disrupt the semantic information of protected images. Given the limited research on the defense against editing methods, we develop a dataset named Defense-Edit to assess the defense performance of various methods. Experiments demonstrate that our Anti-Diffusion achieves superior defense performance across a wide range of diffusion-based techniques in different scenarios.

arxiv情報

著者 Zheng Li,Liangbin Xie,Jiantao Zhou,Xintao Wang,Haiwei Wu,Jinyu Tian
発行日 2025-03-07 17:23:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Anti-Diffusion: Preventing Abuse of Modifications of Diffusion-Based Models はコメントを受け付けていません

D2GV: Deformable 2D Gaussian Splatting for Video Representation in 400FPS

要約

暗黙の神経表現(INR)は、ビデオ表現の強力なアプローチとして浮上しており、圧縮や入力などのタスク全体で汎用性を提供しています。
ただし、それらの暗黙の定式化は解釈可能性と有効性の両方を制限し、包括的なソリューションとしての実用性を損ないます。
D2GVと呼ばれる変形可能な2Dガウスのスプラッティングに基づいた新しいビデオ表現を提案します。これは、3つの重要な目的を達成することを目的としています。1)効率を改善しながら優れた品質を提供します。
2)スケーラビリティと解釈性の向上。
3)下流タスクの親切さの増加。
具体的には、最初にビデオシーケンスを固定長の写真(GOP)に分割して、ビデオ長で並列トレーニングと線形スケーラビリティを可能にします。
各GOPについて、D2GVは、標準空間から対応するタイムスタンプに変形する2Dガウスに微分可能なラスター化を適用することにより、ビデオフレームを表します。
特に、効率的なCUDAベースのラスタ化を活用するD2GVは、400 fpsを超える速度で高速でデコードを収束させ、最先端のINRに一致または上回る品質を提供します。
さらに、D2GVをよりコンパクトな表現に合理化するために、学習可能な剪定および量子化戦略を組み込みます。
ビデオ補間、入力、除去などのタスクにおけるD2GVの汎用性を示し、ビデオ表現の有望なソリューションとしての可能性を強調しています。
コードは、\ href {https://github.com/evan-sudo/d2gv} {https://github.com/evan-sudo/d2gv}で入手できます。

要約(オリジナル)

Implicit Neural Representations (INRs) have emerged as a powerful approach for video representation, offering versatility across tasks such as compression and inpainting. However, their implicit formulation limits both interpretability and efficacy, undermining their practicality as a comprehensive solution. We propose a novel video representation based on deformable 2D Gaussian splatting, dubbed D2GV, which aims to achieve three key objectives: 1) improved efficiency while delivering superior quality; 2) enhanced scalability and interpretability; and 3) increased friendliness for downstream tasks. Specifically, we initially divide the video sequence into fixed-length Groups of Pictures (GoP) to allow parallel training and linear scalability with video length. For each GoP, D2GV represents video frames by applying differentiable rasterization to 2D Gaussians, which are deformed from a canonical space into their corresponding timestamps. Notably, leveraging efficient CUDA-based rasterization, D2GV converges fast and decodes at speeds exceeding 400 FPS, while delivering quality that matches or surpasses state-of-the-art INRs. Moreover, we incorporate a learnable pruning and quantization strategy to streamline D2GV into a more compact representation. We demonstrate D2GV’s versatility in tasks including video interpolation, inpainting and denoising, underscoring its potential as a promising solution for video representation. Code is available at: \href{https://github.com/Evan-sudo/D2GV}{https://github.com/Evan-sudo/D2GV}.

arxiv情報

著者 Mufan Liu,Qi Yang,Miaoran Zhao,He Huang,Le Yang,Zhu Li,Yiling Xu
発行日 2025-03-07 17:26:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | D2GV: Deformable 2D Gaussian Splatting for Video Representation in 400FPS はコメントを受け付けていません

CACTUS: An Open Dataset and Framework for Automated Cardiac Assessment and Classification of Ultrasound Images Using Deep Transfer Learning

要約

心臓超音波(米国)スキャンは、心臓の健康とその適切な機能を診断するために、心臓病の一般的に使用される技術です。
したがって、これらのタスクを自動化する方法を検討し、医療専門家が心臓の米国の画像を分類および評価するのを支援する必要があります。
機械学習(ML)技術は、エコーグラフィー技術者の不足に対処するなど、医療分野の強化を目的とした多数のアプリケーションでの成功により、顕著な解決策と見なされています。
ただし、医療データの利用可能性が限られているため、特に心臓の画像に関して、心臓病にMLを適用することに対する重要な障壁があります。
このペーパーでは、オンラインで入手できる超音波(サボテン)の心臓評価と分類のための最初のオープングレードのデータセットを導入することにより、この課題に対処します。
このデータセットには、CAEブルーファントムのスキャンから得られた画像が含まれており、さまざまなハートビューとさまざまな品質レベルを表し、文献に通常見られる従来の心臓ビューを超えています。
さらに、このペーパーでは、2つの主要なコンポーネントで構成される深い学習(DL)フレームワークを紹介します。
最初のコンポーネントは、畳み込みニューラルネットワーク(CNN)を使用して、心臓ビューに基づいて心臓の画像を分類します。
2番目のコンポーネントは、転送学習(TL)を使用して、最初のコンポーネントから知識を微調整し、心臓画像をグレーディングおよび評価するためのモデルを作成します。
このフレームワークは、分類とグレーディングの両方で高性能を示し、それぞれ最大99.43%の精度と0.3067エラーの低いエラーを達成します。
その堅牢性を紹介するために、フレームワークは、追加の心臓ビューを表す新しい画像を使用してさらに微調整され、他のいくつかの最先端のアーキテクチャと比較されます。
リアルタイムスキャンの処理におけるフレームワークの結果とパフォーマンスは、心臓の専門家が回答したアンケートを使用して評価されました。

要約(オリジナル)

Cardiac ultrasound (US) scanning is a commonly used techniques in cardiology to diagnose the health of the heart and its proper functioning. Therefore, it is necessary to consider ways to automate these tasks and assist medical professionals in classifying and assessing cardiac US images. Machine learning (ML) techniques are regarded as a prominent solution due to their success in numerous applications aimed at enhancing the medical field, including addressing the shortage of echography technicians. However, the limited availability of medical data presents a significant barrier to applying ML in cardiology, particularly regarding US images of the heart. This paper addresses this challenge by introducing the first open graded dataset for Cardiac Assessment and ClassificaTion of UltraSound (CACTUS), which is available online. This dataset contains images obtained from scanning a CAE Blue Phantom and representing various heart views and different quality levels, exceeding the conventional cardiac views typically found in the literature. Additionally, the paper introduces a Deep Learning (DL) framework consisting of two main components. The first component classifies cardiac US images based on the heart view using a Convolutional Neural Network (CNN). The second component uses Transfer Learning (TL) to fine-tune the knowledge from the first component and create a model for grading and assessing cardiac images. The framework demonstrates high performance in both classification and grading, achieving up to 99.43% accuracy and as low as 0.3067 error, respectively. To showcase its robustness, the framework is further fine-tuned using new images representing additional cardiac views and compared to several other state-of-the-art architectures. The framework’s outcomes and performance in handling real-time scans were also assessed using a questionnaire answered by cardiac experts.

arxiv情報

著者 Hanae Elmekki,Ahmed Alagha,Hani Sami,Amanda Spilkin,Antonela Mariel Zanuttini,Ehsan Zakeri,Jamal Bentahar,Lyes Kadem,Wen-Fang Xie,Philippe Pibarot,Rabeb Mizouni,Hadi Otrok,Shakti Singh,Azzam Mourad
発行日 2025-03-07 17:29:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CACTUS: An Open Dataset and Framework for Automated Cardiac Assessment and Classification of Ultrasound Images Using Deep Transfer Learning はコメントを受け付けていません

Real-Time Incremental Explanations for Object Detectors in Autonomous Driving

要約

オブジェクト検出器は、自律運転などの安全性クリティカルなリアルタイムアプリケーションで広く使用されています。
説明可能性は、安全性の高いアプリケーションにとって特に重要であり、オブジェクト検出器の多様性としばしば独自の性質により、ブラックボックスの説明ツールが必要です。
ただし、AIモデル向けの既存のブラックボックスの説明可能性ツールは、複数のモデル呼び出しに依存しているため、リアルタイムの使用には非現実的になります。
このホワイトペーパーでは、オブジェクト検出器のリアルタイムブラックボックスの説明可能性のためのアルゴリズムとツールであるIncxを紹介します。
このアルゴリズムは、顕著性マップの線形変換に基づいており、十分な説明を生成します。
自律運転の4つの広く使用されているビデオデータセットでの実装を評価し、Incxの説明が最先端に匹敵し、最先端よりも2桁高速に計算され、リアルタイムで使用可能になることを実証します。

要約(オリジナル)

Object detectors are widely used in safety-critical real-time applications such as autonomous driving. Explainability is especially important for safety-critical applications, and due to the variety of object detectors and their often proprietary nature, black-box explainability tools are needed. However, existing black-box explainability tools for AI models rely on multiple model calls, rendering them impractical for real-time use. In this paper, we introduce IncX, an algorithm and a tool for real-time black-box explainability for object detectors. The algorithm is based on linear transformations of saliency maps, producing sufficient explanations. We evaluate our implementation on four widely used video datasets of autonomous driving and demonstrate that IncX’s explanations are comparable in quality to the state-of-the-art and are computed two orders of magnitude faster than the state-of-the-art, making them usable in real time.

arxiv情報

著者 Santiago Calderón-Peña,Hana Chockler,David A. Kelly
発行日 2025-03-07 17:38:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Real-Time Incremental Explanations for Object Detectors in Autonomous Driving はコメントを受け付けていません

Conformal Prediction for Image Segmentation Using Morphological Prediction Sets

要約

画像セグメンテーションは、データラベル付けプロセスやトレーニングデータのサンプリングなど、複数の不確実性のソースに影響を与える挑戦的なタスクです。
このホワイトペーパーでは、バイナリセグメンテーションに焦点を当て、適合予測のモデルおよびデータに依存しない方法のファミリーであるコンフォーマル予測を使用して、これらの課題に対処します。
私たちのアプローチでは、トレーニング中に使用されない保留アウトキャリブレーションデータで、予測残差の種類である不適合スコアを計算することが含まれます。
数学的形態の基本的な操作の1つである拡張を使用して、予測されたセグメンテーションマスクの境界線に追加されたマージンを構築します。
推論では、マスクとそのマージンによって形成された予測セットには、ユーザーが指定した信頼レベルで、高い確率の地上真実マスクが含まれています。
マージンのサイズは、特定のモデルとデータセットの予測不確実性の指標として機能します。
予測子からのフィードバックを必要としないため、最小限の情報のレジームで作業します。予測セットの計算には予測されたマスクのみが必要です。
したがって、私たちの方法は、深い学習に基づくものを含む、あらゆるセグメンテーションモデルに適用できます。
いくつかの医療イメージングアプリケーションでアプローチを評価します。

要約(オリジナル)

Image segmentation is a challenging task influenced by multiple sources of uncertainty, such as the data labeling process or the sampling of training data. In this paper we focus on binary segmentation and address these challenges using conformal prediction, a family of model- and data-agnostic methods for uncertainty quantification that provide finite-sample theoretical guarantees and applicable to any pretrained predictor. Our approach involves computing nonconformity scores, a type of prediction residual, on held-out calibration data not used during training. We use dilation, one of the fundamental operations in mathematical morphology, to construct a margin added to the borders of predicted segmentation masks. At inference, the predicted set formed by the mask and its margin contains the ground-truth mask with high probability, at a confidence level specified by the user. The size of the margin serves as an indicator of predictive uncertainty for a given model and dataset. We work in a regime of minimal information as we do not require any feedback from the predictor: only the predicted masks are needed for computing the prediction sets. Hence, our method is applicable to any segmentation model, including those based on deep learning; we evaluate our approach on several medical imaging applications.

arxiv情報

著者 Luca Mossina,Corentin Friedrich
発行日 2025-03-07 17:42:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Conformal Prediction for Image Segmentation Using Morphological Prediction Sets はコメントを受け付けていません

FMT:A Multimodal Pneumonia Detection Model Based on Stacking MOE Framework

要約

人工知能は、肺炎診断の医療画像分析を通じて診断精度を改善する可能性を示しています。
ただし、従来のマルチモーダルアプローチは、不完全なデータやモダリティ損失など、実際の課題に対処できないことがよくあります。
この研究では、柔軟なマルチモーダルトランス(FMT)が提案されました。これは、ResNet-50とBERTを共同表現学習に使用し、その後、臨床モダリティの損失をシミュレートして堅牢性を向上させる動的なマスクされた注意戦略が続きます。
最後に、専門家(MOE)アーキテクチャの連続的な混合を使用して、マルチレベルの決定の改良を達成しました。
小さなマルチモーダル肺炎データセットでの評価後、FMTは94%の精度、95%のリコール、93%F1スコア、シングルモーダルベースライン(ResNet:89%; Bert:79%)を上回る最先端のパフォーマンスを達成し、医療ベンチマーク(90%)を達成しました。
リソースに制約のある医療環境。

要約(オリジナル)

Artificial intelligence has shown the potential to improve diagnostic accuracy through medical image analysis for pneumonia diagnosis. However, traditional multimodal approaches often fail to address real-world challenges such as incomplete data and modality loss. In this study, a Flexible Multimodal Transformer (FMT) was proposed, which uses ResNet-50 and BERT for joint representation learning, followed by a dynamic masked attention strategy that simulates clinical modality loss to improve robustness; finally, a sequential mixture of experts (MOE) architecture was used to achieve multi-level decision refinement. After evaluation on a small multimodal pneumonia dataset, FMT achieved state-of-the-art performance with 94% accuracy, 95% recall, and 93% F1 score, outperforming single-modal baselines (ResNet: 89%; BERT: 79%) and the medical benchmark CheXMed (90%), providing a scalable solution for multimodal diagnosis of pneumonia in resource-constrained medical settings.

arxiv情報

著者 Jingyu Xu,Yang Wang
発行日 2025-03-07 17:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | FMT:A Multimodal Pneumonia Detection Model Based on Stacking MOE Framework はコメントを受け付けていません

Joint 3D Point Cloud Segmentation using Real-Sim Loop: From Panels to Trees and Branches

要約

近代的な果樹園は、管理を改善するために明確なパネル部門を備えた構造化された列に植えられています。
パネルからツリーおよびブランチ(P2TB)へのポイントクラウドの正確で効率的なジョイントセグメンテーションは、ロボット操作に不可欠です。
ただし、ほとんどの現在のセグメンテーション方法は、単一のインスタンスセグメンテーションに焦点を当てており、共同タスクを実行するための一連のディープネットワークに依存しています。
この戦略は、データに組み込まれた階層情報の使用を妨げ、エラーの蓄積と注釈と計算のコストの増加の両方につながり、実際のアプリケーションのスケーラビリティを制限します。
この研究では、データ生成をトレーニングするためのReal2Sim L-TreegenとP2TBタスク用に設計された共同モデル(J-P2TB)を組み込んだ新しいアプローチを提案しました。
生成されたシミュレーションデータセットでトレーニングされたJ-P2TBモデルは、ゼロショット学習を介して実際のパネルポイントクラウドの共同セグメンテーションに使用されました。
代表的な方法と比較して、私たちのモデルは、ほとんどのセグメンテーションメトリックでそれらを上回り、学習可能なパラメーターを40%少なく使用しました。
このSIM2realの結果は、モデルトレーニングにおけるLトリーゲンの有効性と、共同セグメンテーションのJ-P2TBのパフォーマンスを強調し、現実世界アプリケーションの強力な精度、効率、および一般化可能性を示しています。
これらの改善は、自動化された果樹園の運用のためのロボットの開発に大きな利益をもたらすだけでなく、デジタルツインテクノロジーを進めます。

要約(オリジナル)

Modern orchards are planted in structured rows with distinct panel divisions to improve management. Accurate and efficient joint segmentation of point cloud from Panel to Tree and Branch (P2TB) is essential for robotic operations. However, most current segmentation methods focus on single instance segmentation and depend on a sequence of deep networks to perform joint tasks. This strategy hinders the use of hierarchical information embedded in the data, leading to both error accumulation and increased costs for annotation and computation, which limits its scalability for real-world applications. In this study, we proposed a novel approach that incorporated a Real2Sim L-TreeGen for training data generation and a joint model (J-P2TB) designed for the P2TB task. The J-P2TB model, trained on the generated simulation dataset, was used for joint segmentation of real-world panel point clouds via zero-shot learning. Compared to representative methods, our model outperformed them in most segmentation metrics while using 40% fewer learnable parameters. This Sim2Real result highlighted the efficacy of L-TreeGen in model training and the performance of J-P2TB for joint segmentation, demonstrating its strong accuracy, efficiency, and generalizability for real-world applications. These improvements would not only greatly benefit the development of robots for automated orchard operations but also advance digital twin technology.

arxiv情報

著者 Tian Qiu,Ruiming Du,Nikolai Spine,Lailiang Cheng,Yu Jiang
発行日 2025-03-07 17:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, q-bio.QM | Joint 3D Point Cloud Segmentation using Real-Sim Loop: From Panels to Trees and Branches はコメントを受け付けていません

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

要約

単眼ビデオのカメラの軌跡をリダイレクトするための新しいアプローチであるTrajectoryCrafterを提示します。
確率的コンテンツ生成からの決定論的ビュー変換を解き放つことにより、私たちの方法は、ユーザー指定のカメラの軌跡を正確に制御することを実現します。
ポイントクラウドレンダーとソースビデオを条件として同時に統合し、正確なビュー変換とコヒーレント4Dコンテンツ生成を確保する新しいデュアルストリーム条件付きビデオ拡散モデルを提案します。
希少なマルチビュービデオを活用する代わりに、革新的なダブルレプロジェット戦略によって、Webスケールの単眼ビデオと静的なマルチビューデータセットを組み合わせたハイブリッドトレーニングデータセットをキュレートし、多様なシーン全体で堅牢な一般化を大幅に促進します。
マルチビューと大規模な単眼ビデオに関する広範な評価は、私たちの方法の優れたパフォーマンスを示しています。

要約(オリジナル)

We present TrajectoryCrafter, a novel approach to redirect camera trajectories for monocular videos. By disentangling deterministic view transformations from stochastic content generation, our method achieves precise control over user-specified camera trajectories. We propose a novel dual-stream conditional video diffusion model that concurrently integrates point cloud renders and source videos as conditions, ensuring accurate view transformations and coherent 4D content generation. Instead of leveraging scarce multi-view videos, we curate a hybrid training dataset combining web-scale monocular videos with static multi-view datasets, by our innovative double-reprojection strategy, significantly fostering robust generalization across diverse scenes. Extensive evaluations on multi-view and large-scale monocular videos demonstrate the superior performance of our method.

arxiv情報

著者 Mark YU,Wenbo Hu,Jinbo Xing,Ying Shan
発行日 2025-03-07 17:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models はコメントを受け付けていません