Green Robotic Mixed Reality with Gaussian Splatting

要約

ロボットミックスリアリティ(ROBOMR)システムでのグリーンコミュニケーションの実現は、ワイヤレスチャネルを介して高周波数で高解像度画像をアップロードする必要があるため、課題を提示します。
このペーパーでは、ガウススプラッティング(GS)ROBOMR(GSRMR)を提案します。これは、より低いエネルギー消費を達成し、グリーンロボムルに向けて具体的な一歩を踏み出します。
GSRMRへの核心は、シミュレータがロボットのポーズから写真と現実的なビューを日和見的にレンダリングすることを可能にするGSモデルを構築することで、過度の画像アップロードの必要性を減らすことです。
GSモデルには実際の環境と比較して不一致が含まれる可能性があるため、GS架橋最適化(GSCLO)フレームワークがさらに提案され、コンテンツスイッチングを共同で最適化します(つまり、画像をアップロードするかどうかを決定)、パワー配分をさまざまなフレームに配置します。
GSCLOの問題は、加速ペナルティ最適化(APO)アルゴリズムによって解決されます。
実験は、提案されたGSRMRがRoBomRと比較して通信エネルギーを10倍以上減らすことを示しています。
さらに、APOを備えた提案されたGSRMRは、ピーク信号対雑音比(PSNR)と構造類似性指数測定(SSIM)の観点から、広範なベースラインスキームを上回ります。

要約(オリジナル)

Realizing green communication in robotic mixed reality (RoboMR) systems presents a challenge, due to the necessity of uploading high-resolution images at high frequencies through wireless channels. This paper proposes Gaussian splatting (GS) RoboMR (GSRMR), which achieves a lower energy consumption and makes a concrete step towards green RoboMR. The crux to GSRMR is to build a GS model which enables the simulator to opportunistically render a photo-realistic view from the robot’s pose, thereby reducing the need for excessive image uploads. Since the GS model may involve discrepancies compared to the actual environments, a GS cross-layer optimization (GSCLO) framework is further proposed, which jointly optimizes content switching (i.e., deciding whether to upload image or not) and power allocation across different frames. The GSCLO problem is solved by an accelerated penalty optimization (APO) algorithm. Experiments demonstrate that the proposed GSRMR reduces the communication energy by over 10x compared with RoboMR. Furthermore, the proposed GSRMR with APO outperforms extensive baseline schemes, in terms of peak signal-to-noise ratio (PSNR) and structural similarity index measure (SSIM).

arxiv情報

著者 Chenxuan Liu,He Li,Zongze Li,Shuai Wang,Wei Xu,Kejiang Ye,Derrick Wing Kwan Ng,Chengzhong Xu
発行日 2025-04-18 13:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.SP | Green Robotic Mixed Reality with Gaussian Splatting はコメントを受け付けていません

Part-aware Shape Generation with Latent 3D Diffusion of Neural Voxel Fields

要約

このペーパーでは、正確なパート認識構造を実現することを目的とした、神経ボクセルフィールドの生成のための新しい潜在的な3D拡散モデルを紹介します。
既存の方法と比較して、高品質で正確なパート認識生成を確保するための2つの重要な設計があります。
一方では、神経ボクセルフィールドに潜在的な3D拡散プロセスを導入し、豊富なテクスチャーと幾何学の詳細を正確にキャプチャできる大幅に高い解像度で生成を可能にします。
一方、部品コードをニューラルボクセルフィールドに統合するために、パートアウェア形状デコーダーが導入され、正確な部分分解を導き、高品質のレンダリング結果を生成します。
広範な実験と最先端の方法との比較を通じて、4つの異なるクラスのデータにわたるアプローチを評価します。
結果は、既存の最先端の方法よりも優れた部分的な形状生成における提案された方法の優れた生成能力を示しています。

要約(オリジナル)

This paper presents a novel latent 3D diffusion model for the generation of neural voxel fields, aiming to achieve accurate part-aware structures. Compared to existing methods, there are two key designs to ensure high-quality and accurate part-aware generation. On one hand, we introduce a latent 3D diffusion process for neural voxel fields, enabling generation at significantly higher resolutions that can accurately capture rich textural and geometric details. On the other hand, a part-aware shape decoder is introduced to integrate the part codes into the neural voxel fields, guiding the accurate part decomposition and producing high-quality rendering results. Through extensive experimentation and comparisons with state-of-the-art methods, we evaluate our approach across four different classes of data. The results demonstrate the superior generative capabilities of our proposed method in part-aware shape generation, outperforming existing state-of-the-art methods.

arxiv情報

著者 Yuhang Huang,SHilong Zou,Xinwang Liu,Kai Xu
発行日 2025-04-18 14:07:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Part-aware Shape Generation with Latent 3D Diffusion of Neural Voxel Fields はコメントを受け付けていません

Few-Shot Referring Video Single- and Multi-Object Segmentation via Cross-Modal Affinity with Instance Sequence Matching

要約

参照ビデオオブジェクトセグメンテーション(RVOS)は、自然言語の説明に導かれたビデオでオブジェクトをセグメント化することを目的としています。
FS-RVOは、FS-RVOSをマルチオブジェクトセグメンテーション(FS-RVMOS)に拡張するクロスモーダルアフィニティモジュールとインスタンスシーケンスマッチング戦略の2つの重要なコンポーネントを備えたトランスベースのモデルです。
実験では、FS-RVOSおよびFS-RVMOが多様なベンチマーク全体で最先端の方法を上回り、優れた堅牢性と精度を示しています。

要約(オリジナル)

Referring video object segmentation (RVOS) aims to segment objects in videos guided by natural language descriptions. We propose FS-RVOS, a Transformer-based model with two key components: a cross-modal affinity module and an instance sequence matching strategy, which extends FS-RVOS to multi-object segmentation (FS-RVMOS). Experiments show FS-RVOS and FS-RVMOS outperform state-of-the-art methods across diverse benchmarks, demonstrating superior robustness and accuracy.

arxiv情報

著者 Heng Liu,Guanghui Li,Mingqi Gao,Xiantong Zhen,Feng Zheng,Yang Wang
発行日 2025-04-18 14:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Few-Shot Referring Video Single- and Multi-Object Segmentation via Cross-Modal Affinity with Instance Sequence Matching はコメントを受け付けていません

SLAM&Render: A Benchmark for the Intersection Between Neural Rendering, Gaussian Splatting and SLAM

要約

元々、ニューラル放射輝度フィールド(NERF)やガウスのスプラッティングなど、新しいビューの合成とシーンレンダリング用に開発されたモデルと方法は、同時局在とマッピング(SLAM)の表現としてますます採用されています。
ただし、既存のデータセットには、マルチモダリティやスラムのシーケンシャルや、視点での一般化やニューラルレンダリングの照明条件など、両方のフィールドの特定の課題を含めることができません。
このギャップを埋めるために、Slam&Renderを紹介します。これは、スラムと新しいビューレンダリングの交差点でメソッドをベンチマークするように設計された新しいデータセットです。
これは、同期されたRGB、深さ、IMU、ロボットの運動学データ、およびグラウンドトゥルースポーズストリームを備えた40のシーケンスで構成されています。
ロボットの運動学的データをリリースすることにより、データセットは、ロボットマニピュレーターに適用されたときに、新しいスラム戦略の評価も可能にします。
データセットシーケンスは、4つの異なる照明条件下で消費者と産業のオブジェクトを特徴とする5つの異なるセットアップに及び、シーンごとの個別のトレーニングとテストの軌跡、およびオブジェクトの再配置を備えています。
文献からいくつかのベースラインで得られた実験結果は、この新興研究分野の関連ベンチマークとしてSlam&Renderを検証します。

要約(オリジナル)

Models and methods originally developed for novel view synthesis and scene rendering, such as Neural Radiance Fields (NeRF) and Gaussian Splatting, are increasingly being adopted as representations in Simultaneous Localization and Mapping (SLAM). However, existing datasets fail to include the specific challenges of both fields, such as multimodality and sequentiality in SLAM or generalization across viewpoints and illumination conditions in neural rendering. To bridge this gap, we introduce SLAM&Render, a novel dataset designed to benchmark methods in the intersection between SLAM and novel view rendering. It consists of 40 sequences with synchronized RGB, depth, IMU, robot kinematic data, and ground-truth pose streams. By releasing robot kinematic data, the dataset also enables the assessment of novel SLAM strategies when applied to robot manipulators. The dataset sequences span five different setups featuring consumer and industrial objects under four different lighting conditions, with separate training and test trajectories per scene, as well as object rearrangements. Our experimental results, obtained with several baselines from the literature, validate SLAM&Render as a relevant benchmark for this emerging research area.

arxiv情報

著者 Samuel Cerezo,Gaetano Meli,Tomás Berriel Martins,Kirill Safronov,Javier Civera
発行日 2025-04-18 14:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SLAM&Render: A Benchmark for the Intersection Between Neural Rendering, Gaussian Splatting and SLAM はコメントを受け付けていません

Human-aligned Deep Learning: Explainability, Causality, and Biological Inspiration

要約

この作業は、深い学習(DL)を人間の推論能力に合わせており、より効率的で解釈可能な、堅牢な画像分類を可能にする必要があります。
これには、説明可能性、因果関係、生物学的ビジョンの3つの観点からアプローチします。
はじめに、手術章に飛び込む前にこの作業を開きます。
まず、医療画像のニューラルネットワークの視覚化手法を評価し、乳房質量分類のための説明可能な設計方法を検証します。
Xaiと因果関係の交差点での包括的なレビューが続きます。ここでは、過去と将来の研究を組織するための一般的な足場を導入し、2番目の視点の基礎を築きます。
因果関係の方向では、医療画像の共起を特徴とする新しいモジュールを提案し、より効果的で説明可能な予測につながります。
さらに、因果的概念、対照学習、特徴の解き、事前知識を統合して一般化を強化する一般的な枠組みであるCrocodileをさらに紹介します。
最後に、人間がオブジェクトをどのように認識するかを調べ、コンテキストに触れた注意メカニズムを備えた接続性に触発されたネットワークであるCocorecoを​​提案する生物学的ビジョンを探ります。
全体として、主要な調査結果には次のものが含まれます。(i)単純な活性化の最大化には、医療イメージングDLモデルの洞察がありません。
(ii)プロトタイプパートの学習は効果的で放射線学的に整合しています。
(iii)xaiおよび因果mlは深く接続されています。
(iv)パフォーマンスと解釈性を向上させるために、アプリオリ情報なしで弱い因果信号を活用できます。
(v)当社のフレームワークは、医療ドメインと分散除外データ全体に一般化されています。
(vi)生物学的回路モチーフを組み込むことで、人間に合った認識が向上します。
この作業は、人間に合ったDLに貢献し、研究と臨床採用のギャップを埋めるための経路を強調し、信頼の改善、診断精度、安全な展開に影響を与えます。

要約(オリジナル)

This work aligns deep learning (DL) with human reasoning capabilities and needs to enable more efficient, interpretable, and robust image classification. We approach this from three perspectives: explainability, causality, and biological vision. Introduction and background open this work before diving into operative chapters. First, we assess neural networks’ visualization techniques for medical images and validate an explainable-by-design method for breast mass classification. A comprehensive review at the intersection of XAI and causality follows, where we introduce a general scaffold to organize past and future research, laying the groundwork for our second perspective. In the causality direction, we propose novel modules that exploit feature co-occurrence in medical images, leading to more effective and explainable predictions. We further introduce CROCODILE, a general framework that integrates causal concepts, contrastive learning, feature disentanglement, and prior knowledge to enhance generalization. Lastly, we explore biological vision, examining how humans recognize objects, and propose CoCoReco, a connectivity-inspired network with context-aware attention mechanisms. Overall, our key findings include: (i) simple activation maximization lacks insight for medical imaging DL models; (ii) prototypical-part learning is effective and radiologically aligned; (iii) XAI and causal ML are deeply connected; (iv) weak causal signals can be leveraged without a priori information to improve performance and interpretability; (v) our framework generalizes across medical domains and out-of-distribution data; (vi) incorporating biological circuit motifs improves human-aligned recognition. This work contributes toward human-aligned DL and highlights pathways to bridge the gap between research and clinical adoption, with implications for improved trust, diagnostic accuracy, and safe deployment.

arxiv情報

著者 Gianluca Carloni
発行日 2025-04-18 14:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV, I.2, q-bio.NC | Human-aligned Deep Learning: Explainability, Causality, and Biological Inspiration はコメントを受け付けていません

MLEP: Multi-granularity Local Entropy Patterns for Universal AI-generated Image Detection

要約

画像生成技術の進歩は、誤った情報やディープフェイクの生成など、潜在的な誤用について大きな懸念を提起しています。
したがって、AIに生成された画像(AIGI)を検出するための効果的な方法が緊急に必要です。
AIGIの検出の進歩にもかかわらず、ソース不変の機能がないため、既存の方法に限られた一般化機能が不足しているため、多様な生成モデルとシーンで信頼できるパフォーマンスを達成することは依然として困難です。
この作業では、画像エントロピーをAIGI検出のキューとして使用する可能性を調査し、複数の画像スケーリングされたシャッフルされた小さなパッチで計算されたエントロピー機能マップのセットであるマルチ粒度の局所エントロピーパターン(MLEP)を提案します。
MLEPは、画像セマンティクスを大幅に混乱させ、潜在的な内容バイアスを減らしながら、次元とスケール全体のピクセル関係を包括的にキャプチャします。
AIGI検出用の堅牢なCNNベースの分類器であるMLEPをレバレッジすることをトレーニングできます。
32の異なる生成モデルによって合成された画像を評価するオープンワールドシナリオで実施された広範な実験は、精度と一般化の両方で最先端の方法よりも大幅な改善を示しています。

要約(オリジナル)

Advancements in image generation technologies have raised significant concerns about their potential misuse, such as producing misinformation and deepfakes. Therefore, there is an urgent need for effective methods to detect AI-generated images (AIGI). Despite progress in AIGI detection, achieving reliable performance across diverse generation models and scenes remains challenging due to the lack of source-invariant features and limited generalization capabilities in existing methods. In this work, we explore the potential of using image entropy as a cue for AIGI detection and propose Multi-granularity Local Entropy Patterns (MLEP), a set of entropy feature maps computed across shuffled small patches over multiple image scaled. MLEP comprehensively captures pixel relationships across dimensions and scales while significantly disrupting image semantics, reducing potential content bias. Leveraging MLEP, a robust CNN-based classifier for AIGI detection can be trained. Extensive experiments conducted in an open-world scenario, evaluating images synthesized by 32 distinct generative models, demonstrate significant improvements over state-of-the-art methods in both accuracy and generalization.

arxiv情報

著者 Lin Yuan,Xiaowan Li,Yan Zhang,Jiawei Zhang,Hongbo Li,Xinbo Gao
発行日 2025-04-18 14:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MLEP: Multi-granularity Local Entropy Patterns for Universal AI-generated Image Detection はコメントを受け付けていません

LimitNet: Progressive, Content-Aware Image Offloading for Extremely Weak Devices & Networks

要約

IoTデバイスのハードウェア機能は限られており、多くの場合、遠隔地に展開されます。
その結果、高度なビジョンモデルは、このようなデバイスの処理機能とストレージ機能を上回り、クラウドへのタスクのオフロードを必要とします。
ただし、リモートエリアは、帯域幅が限られている、パケット損失率が高く、極端なデューティサイクルを備えたLPWANSテクノロジーに依存していることが多く、これにより、時間に敏感な推論のための高速オフロードが困難になります。
弱いデバイスに展開できる今日のアプローチは、非進行性のビットストリームを生成します。したがって、帯域幅またはパケットの損失が限られているため、締め切りでクラウドでデータが部分的にのみ利用可能である場合、それらのデコード品質は強く苦しみます。
このホワイトペーパーでは、非常に弱いデバイスとネットワーク向けに設計されたプログレッシブでコンテンツを意識した画像圧縮モデルであるLimitNetを紹介します。
LimiteNetの軽量プログレッシブエンコーダは、画像のコンテンツに基づいて送信中に重要なデータを優先します。これにより、部分的なデータの可用性があっても、クラウドが推論を実行する機会が得られます。
実験結果は、LimiteNetがSOTAと比較して平均して14.01 P.Pを達成することを示しています。
(パーセンテージポイント)ImagENET1000の精度が高く、CIFAR100で18.01 pp、およびCoCoで0.1高MAP@0.5。
また、平均して、LimitNetは、SOTAと比較して、ImagENET1000で帯域幅を61.24%、CIFAR100で83.68%、COCOデータセットで42.25%節約しますが、STM32F7(Cortex-M7)のJPEG(固定品質)と比較して4%以上のエンコードがあります。

要約(オリジナル)

IoT devices have limited hardware capabilities and are often deployed in remote areas. Consequently, advanced vision models surpass such devices’ processing and storage capabilities, requiring offloading of such tasks to the cloud. However, remote areas often rely on LPWANs technology with limited bandwidth, high packet loss rates, and extremely low duty cycles, which makes fast offloading for time-sensitive inference challenging. Today’s approaches, which are deployable on weak devices, generate a non-progressive bit stream, and therefore, their decoding quality suffers strongly when data is only partially available on the cloud at a deadline due to limited bandwidth or packet losses. In this paper, we introduce LimitNet, a progressive, content-aware image compression model designed for extremely weak devices and networks. LimitNet’s lightweight progressive encoder prioritizes critical data during transmission based on the content of the image, which gives the cloud the opportunity to run inference even with partial data availability. Experimental results demonstrate that LimitNet, on average, compared to SOTA, achieves 14.01 p.p. (percentage point) higher accuracy on ImageNet1000, 18.01 pp on CIFAR100, and 0.1 higher mAP@0.5 on COCO. Also, on average, LimitNet saves 61.24% bandwidth on ImageNet1000, 83.68% on CIFAR100, and 42.25% on the COCO dataset compared to SOTA, while it only has 4% more encoding time compared to JPEG (with a fixed quality) on STM32F7 (Cortex-M7).

arxiv情報

著者 Ali Hojjat,Janek Haberer,Tayyaba Zainab,Olaf Landsiedel
発行日 2025-04-18 15:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | LimitNet: Progressive, Content-Aware Image Offloading for Extremely Weak Devices & Networks はコメントを受け付けていません

ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis

要約

拡散モデルは、テキストからイメージ(T2I)合成に革命をもたらし、高品質の光線現実的な画像を生成しました。
しかし、彼らはまだテキストプロンプトで説明されている空間的関係を適切にするのに苦労しています。
T2I世代の空間情報の欠如に対処するために、既存の方法は通常、外部ネットワークコンディショニングと事前定義されたレイアウトを使用して、計算コストが高くなり、柔軟性が低下します。
私たちのアプローチは、空間的に明示的なプロンプトのキュレーションされたデータセットの上に構築され、laion-400mから細心の注意を払って抽出および合成され、テキストの説明と空間レイアウトの間の正確な調整を確保します。
このデータセットに沿って、生成時間を増やしたり、出力の品質を損なうことなく生成モデルの空間的一貫性を高めるように特別に設計された低ランク適応に基づいた柔軟な微調整フレームワークであるEsploraを提示します。
Esploraに加えて、幾何学的制約に基づいた洗練された評価メトリックを提案し、\ textit {前の}や\ textit {背後}などの3D空間関係をキャプチャします。
これらのメトリックは、T2Iモデルの空間バイアスも公開します。これは、完全に緩和されていない場合でも、生成された画像の空間的一貫性をさらに改善するために、引き裂かれたアルゴリズムによって戦略的に悪用される可能性があります。
私たちの方法は、確立された空間的一貫性ベンチマークで、現在の最先端のフレームワークであるコンパスよりも13.33%上回っています。

要約(オリジナル)

Diffusion models have revolutionized text-to-image (T2I) synthesis, producing high-quality, photorealistic images. However, they still struggle to properly render the spatial relationships described in text prompts. To address the lack of spatial information in T2I generations, existing methods typically use external network conditioning and predefined layouts, resulting in higher computational costs and reduced flexibility. Our approach builds upon a curated dataset of spatially explicit prompts, meticulously extracted and synthesized from LAION-400M to ensure precise alignment between textual descriptions and spatial layouts. Alongside this dataset, we present ESPLoRA, a flexible fine-tuning framework based on Low-Rank Adaptation, specifically designed to enhance spatial consistency in generative models without increasing generation time or compromising the quality of the outputs. In addition to ESPLoRA, we propose refined evaluation metrics grounded in geometric constraints, capturing 3D spatial relations such as \textit{in front of} or \textit{behind}. These metrics also expose spatial biases in T2I models which, even when not fully mitigated, can be strategically exploited by our TORE algorithm to further improve the spatial consistency of generated images. Our method outperforms the current state-of-the-art framework, CoMPaSS, by 13.33% on established spatial consistency benchmarks.

arxiv情報

著者 Andrea Rigo,Luca Stornaiuolo,Mauro Martino,Bruno Lepri,Nicu Sebe
発行日 2025-04-18 15:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.4.0 | ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis はコメントを受け付けていません

DAM-Net: Domain Adaptation Network with Micro-Labeled Fine-Tuning for Change Detection

要約

リモートセンシング画像の変更検出(CD)は、都市計画、損傷評価、リソース管理などのさまざまなアプリケーションで重要な役割を果たします。
ディープラーニングアプローチはCDパフォーマンスを大幅に進めていますが、現在の方法はドメインの適応性が低いため、新しいシナリオに適用されると再訓練のために広範なラベル付きデータが必要です。
この制限により、さまざまなデータセット全体で実際のアプリケーションが厳しく制限されます。
この作業では、DAM-NET:CD用のマイクロラベル微調整を備えたドメイン適応ネットワークを提案します。
当社のネットワークは、特別に設計されたセグメンテーションディスクリミネーターと交互のトレーニング戦略を利用して、ドメイン間の効果的な転送を可能にする敵対的なドメイン適応をCDに導入します。
さらに、ドメインの適応を強化するために最小限のサンプル(1%未満)を戦略的に選択およびラベル付けする新しいマイクロラベル微調整アプローチを提案します。
ネットワークには、以前の研究に基づいて、特徴融合と最適化されたバックボーン構造のための多粘度変圧器が組み込まれています。
Levir-CDおよびWHU-CDデータセットで実施された実験は、DAM-NETが既存のドメイン適応方法を大幅に上回り、0.3%のラベル付きサンプルのみを使用しながら10%のラベル付きデータを必要とする半監視アプローチに匹敵するパフォーマンスを達成することを示しています。
私たちのアプローチは、クロスダタセットCDアプリケーションを大幅に進め、リモートセンシングにおける効率的なドメイン適応のための新しいパラダイムを提供します。
Dam-Netのソースコードは、公開時に公開されます。

要約(オリジナル)

Change detection (CD) in remote sensing imagery plays a crucial role in various applications such as urban planning, damage assessment, and resource management. While deep learning approaches have significantly advanced CD performance, current methods suffer from poor domain adaptability, requiring extensive labeled data for retraining when applied to new scenarios. This limitation severely restricts their practical applications across different datasets. In this work, we propose DAM-Net: a Domain Adaptation Network with Micro-Labeled Fine-Tuning for CD. Our network introduces adversarial domain adaptation to CD for, utilizing a specially designed segmentation-discriminator and alternating training strategy to enable effective transfer between domains. Additionally, we propose a novel Micro-Labeled Fine-Tuning approach that strategically selects and labels a minimal amount of samples (less than 1%) to enhance domain adaptation. The network incorporates a Multi-Temporal Transformer for feature fusion and optimized backbone structure based on previous research. Experiments conducted on the LEVIR-CD and WHU-CD datasets demonstrate that DAM-Net significantly outperforms existing domain adaptation methods, achieving comparable performance to semi-supervised approaches that require 10% labeled data while using only 0.3% labeled samples. Our approach significantly advances cross-dataset CD applications and provides a new paradigm for efficient domain adaptation in remote sensing. The source code of DAM-Net will be made publicly available upon publication.

arxiv情報

著者 Hongjia Chen,Xin Xu,Fangling Pu
発行日 2025-04-18 15:29:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DAM-Net: Domain Adaptation Network with Micro-Labeled Fine-Tuning for Change Detection はコメントを受け付けていません

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

要約

さまざまなビジョンや言語タスクが可能なマルチモーダルの自己回帰モデルのファミリーであるLumina-Mgptを紹介します。特に、テキストの説明から柔軟なフォトリアリックな画像を生成するのに優れています。
マルチモーダル生成前脱同胞(MGPT)から初期化することにより、デコーダーのみのオートレーリング(AR)モデルが、柔軟なプログレッシブな監視された微調整(FP-SFT)を介して高効率を備えた最新の拡散モデルに匹敵する画像生成パフォーマンスを実現できることを実証します。
提案されている明確な画像表現(UNIREP)を装備したLumina-MGPTは、さまざまなアスペクト比の高品質の画像を柔軟に生成できます。
強力な画像生成能力に基づいて、ルミナ-MGPTを統一されたマルチモーダルジェネラリストに昇格させる最初の試みである、監視された微調整(OMNI-SFT)の監視された任意の微調整をさらに探ります。
結果として得られるモデルは、テキストからイメージ/マルチビュー生成、制御可能な生成などの視覚的な生成タスク、セグメンテーションや深さ推定などの視覚認識タスク、マルチターンの視覚的質問のような視覚言語タスクなど、技術的方向のバラ色の可能性を示す視覚的認識タスクなど、多目的なマルチモーダル機能を示しています。
コードとチェックポイントは、https://github.com/alpha-vllm/lumina-mgptで入手できます。

要約(オリジナル)

We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. By initializing from multimodal Generative PreTraining (mGPT), we demonstrate that decoder-only Autoregressive (AR) model can achieve image generation performance comparable to modern diffusion models with high efficiency through Flexible Progressive Supervised Fine-tuning (FP-SFT). Equipped with our proposed Unambiguous image Representation (UniRep), Lumina-mGPT can flexibly generate high-quality images of varying aspect ratios. Building on the strong image generation capabilities, we further explore Ominiponent Supervised Fine-tuning (Omni-SFT), an initial attempt to elevate Lumina-mGPT into a unified multi-modal generalist. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like text-to-image/multiview generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multi-turn visual question answering, showing the rosy potential of the technical direction. Codes and checkpoints are available at https://github.com/Alpha-VLLM/Lumina-mGPT.

arxiv情報

著者 Dongyang Liu,Shitian Zhao,Le Zhuo,Weifeng Lin,Yu Qiao,Hongsheng Li,Peng Gao
発行日 2025-04-18 15:32:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining はコメントを受け付けていません