BIM-Constrained Optimization for Accurate Localization and Deviation Correction in Construction Monitoring

要約

建設監視のための拡張現実(AR)アプリケーションは、建築要素を視覚化するためにリアルタイムの環境追跡に依存しています。
ただし、建設現場は、特徴のない表面、動的な変化、およびドリフトの蓄積による従来の追跡方法に大きな課題を提示し、デジタルモデルと物理的世界の間の誤りにつながります。
このペーパーでは、これらの課題に対処するために、BIMにアウェアドリフト補正方法を提案しています。
SLAMベースのローカリゼーションのみに依存する代わりに、「AS BUILT」検出された平面を、現実世界の環境から並べ、BIMの「ASPLANNED」アーキテクチャプレーンと並べます。
私たちの方法は、堅牢な平面マッチングを実行し、最適化技術を使用してスラム(S)とBIM(B)のオリジンフレーム間の変換(TF)を計算し、時間の経過とともにドリフトを最小限に抑えます。
BIMを以前の構造知識として組み込むことにより、騒々しい建設環境での長期的な局在化と強化されたAR視覚化精度を達成することができます。
この方法は、現実世界の実験を通じて評価され、ドリフト誘導エラーの大幅な減少と最適化されたアライメントの一貫性を示します。
平均して、当社のシステムは、ユーザーによる初期のマニュアルアライメントと比較して、角度偏差が52.24%の削減と、一致した壁の距離エラーで60.8%の減少を達成します。

要約(オリジナル)

Augmented reality (AR) applications for construction monitoring rely on real-time environmental tracking to visualize architectural elements. However, construction sites present significant challenges for traditional tracking methods due to featureless surfaces, dynamic changes, and drift accumulation, leading to misalignment between digital models and the physical world. This paper proposes a BIM-aware drift correction method to address these challenges. Instead of relying solely on SLAM-based localization, we align “as-built’ detected planes from the real-world environment with “as-planned’ architectural planes in BIM. Our method performs robust plane matching and computes a transformation (TF) between SLAM (S) and BIM (B) origin frames using optimization techniques, minimizing drift over time. By incorporating BIM as prior structural knowledge, we can achieve improved long-term localization and enhanced AR visualization accuracy in noisy construction environments. The method is evaluated through real-world experiments, showing significant reductions in drift-induced errors and optimized alignment consistency. On average, our system achieves a reduction of 52.24% in angular deviations and a reduction of 60.8% in the distance error of the matched walls compared to the initial manual alignment by the user.

arxiv情報

著者 Asier Bikandi,Muhammad Shaheer,Hriday Bavle,Jayan Jevanesan,Holger Voos,Jose Luis Sanchez-Lopez
発行日 2025-04-24 16:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | BIM-Constrained Optimization for Accurate Localization and Deviation Correction in Construction Monitoring はコメントを受け付けていません

PICO: Reconstructing 3D People In Contact with Objects

要約

シングルカラー画像から3Dヒトオブジェクト相互作用(HOI)を回復することは、深さのあいまいさ、閉塞、およびオブジェクトの形状と外観の大きなばらつきのために困難です。
したがって、過去の作業では、既知のオブジェクト形状や連絡先などの制御された設定が必要であり、限られたオブジェクトクラスのみに取り組んでいます。
代わりに、自然な画像や新しいオブジェクトクラスに一般化する方法が必要です。
これには、2つの主な方法で取り組みます。(1)Pico-DBを収集します。これは、ボディメッシュとオブジェクトメッシュの両方で密な3D接触と独自に組み合わせた自然画像の新しいデータセットです。
この目的のために、連絡先と組み合わせた最近のデイモンデータセットの画像を使用しますが、これらの連絡先は標準的な3Dボディでのみ注釈が付けられています。
対照的に、ボディとオブジェクトの両方に接触ラベルを探します。
これらを与えられた画像を推測するために、Vision Foundationモデルを活用することにより、データベースから適切な3Dオブジェクトメッシュを取得します。
次に、パッチごとに2クリックしか必要とする新しい方法を介して、デイモンのボディコンタクトパッチをオブジェクトに投影します。
この最小限の人間の入力は、ボディとオブジェクトの間の豊富な接触対応を確立します。
(2)インタラクションで3Dボディとオブジェクトメッシュを回復するために、Pico-Fitと呼ばれる新しいレンダリングおよびコンパールフィッティング方法で、連絡先の新しいデータセットを利用します。
PICO-FITは、SMPL-Xボディの接触を促進し、そのオブジェクトのPico-DBから3Dオブジェクトメッシュと接触を取得し、接触を使用して、3Dボディとオブジェクトメッシュに最適化を介してイメージを繰り返します。
ユニークなことに、Pico-Fitは、既存の方法に取り組むことができない多くのオブジェクトカテゴリに適しています。
これは、HOIの理解が野生でスケーリングできるようにするために重要です。
当社のデータとコードは、https://pico.is.tue.mpg.deで入手できます。

要約(オリジナル)

Recovering 3D Human-Object Interaction (HOI) from single color images is challenging due to depth ambiguities, occlusions, and the huge variation in object shape and appearance. Thus, past work requires controlled settings such as known object shapes and contacts, and tackles only limited object classes. Instead, we need methods that generalize to natural images and novel object classes. We tackle this in two main ways: (1) We collect PICO-db, a new dataset of natural images uniquely paired with dense 3D contact on both body and object meshes. To this end, we use images from the recent DAMON dataset that are paired with contacts, but these contacts are only annotated on a canonical 3D body. In contrast, we seek contact labels on both the body and the object. To infer these given an image, we retrieve an appropriate 3D object mesh from a database by leveraging vision foundation models. Then, we project DAMON’s body contact patches onto the object via a novel method needing only 2 clicks per patch. This minimal human input establishes rich contact correspondences between bodies and objects. (2) We exploit our new dataset of contact correspondences in a novel render-and-compare fitting method, called PICO-fit, to recover 3D body and object meshes in interaction. PICO-fit infers contact for the SMPL-X body, retrieves a likely 3D object mesh and contact from PICO-db for that object, and uses the contact to iteratively fit the 3D body and object meshes to image evidence via optimization. Uniquely, PICO-fit works well for many object categories that no existing method can tackle. This is crucial to enable HOI understanding to scale in the wild. Our data and code are available at https://pico.is.tue.mpg.de.

arxiv情報

著者 Alpár Cseke,Shashank Tripathi,Sai Kumar Dwivedi,Arjun Lakshmipathy,Agniv Chatterjee,Michael J. Black,Dimitrios Tzionas
発行日 2025-04-24 16:03:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PICO: Reconstructing 3D People In Contact with Objects はコメントを受け付けていません

Hierarchical and Multimodal Data for Daily Activity Understanding

要約

人工知能の毎日の活動記録(ダライ、「ダーリー」と発音)は、現実世界の設定で人間の活動を理解するために構築されたマルチモーダルの階層的に注釈付きのデータセットです。
Daraiは、10の異なる環境で50人の参加者を対象とした連続スクリプト化されたスクリプト化されていない録画で構成されており、複数のカメラビュー、深さおよびレーダーセンサー、ウェアラブル慣性測定単位(IMU)、株式撮影(EMG)、インソール圧力センサー、バイオモニターセンサー、および視線トラッカーを含む20のセンサーからの合計200時間以上のデータがあります。
人間の活動の複雑さを捉えるために、ダライは3つのレベルの階層で注釈が付けられています。(i)独立したタスクである高レベルの活動(L1)、(ii)アクティビティ間で共有されるパターンである低レベルのアクション(L2)、および(iii)アクションの正確な実行ステップを詳述する微細に粒度の手順(L3)。
データセットの注釈と記録は、L2アクションの22.7%がL1アクティビティ間で共有され、L3手順の14.2%がL2アクション間で共有されるように設計されています。
Daraiのオーバーラップとスクリプトの性質により、データセット内の反事実的なアクティビティが可能になります。
さまざまな機械学習モデルを使用した実験では、人間中心のアプリケーションにおける重要な課題を明らかにする際のダライの価値を示しています。
具体的には、すべての階層的な注釈レベルで認識、時間的局在、および将来のアクション予測のために、単峰性およびマルチモーダルセンサー融合実験を実施します。
個々のセンサーの制限を強調するために、Daraiのマルチセンサーおよび反事実的なアクティビティ設計の設計によって有効になっているドメイン変数実験も実施します。
コード、ドキュメンテーション、およびデータセットは、専用のDarai Webサイト(https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-tilificial-intelligence-and-machine-learning/

要約(オリジナル)

Daily Activity Recordings for Artificial Intelligence (DARai, pronounced ‘Dahr-ree’) is a multimodal, hierarchically annotated dataset constructed to understand human activities in real-world settings. DARai consists of continuous scripted and unscripted recordings of 50 participants in 10 different environments, totaling over 200 hours of data from 20 sensors including multiple camera views, depth and radar sensors, wearable inertial measurement units (IMUs), electromyography (EMG), insole pressure sensors, biomonitor sensors, and gaze tracker. To capture the complexity in human activities, DARai is annotated at three levels of hierarchy: (i) high-level activities (L1) that are independent tasks, (ii) lower-level actions (L2) that are patterns shared between activities, and (iii) fine-grained procedures (L3) that detail the exact execution steps for actions. The dataset annotations and recordings are designed so that 22.7% of L2 actions are shared between L1 activities and 14.2% of L3 procedures are shared between L2 actions. The overlap and unscripted nature of DARai allows counterfactual activities in the dataset. Experiments with various machine learning models showcase the value of DARai in uncovering important challenges in human-centered applications. Specifically, we conduct unimodal and multimodal sensor fusion experiments for recognition, temporal localization, and future action anticipation across all hierarchical annotation levels. To highlight the limitations of individual sensors, we also conduct domain-variant experiments that are enabled by DARai’s multi-sensor and counterfactual activity design setup. The code, documentation, and dataset are available at the dedicated DARai website: https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-artificial-intelligence-and-machine-learning/

arxiv情報

著者 Ghazal Kaviani,Yavuz Yarici,Seulgi Kim,Mohit Prabhushankar,Ghassan AlRegib,Mashhour Solh,Ameya Patil
発行日 2025-04-24 16:04:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Hierarchical and Multimodal Data for Daily Activity Understanding はコメントを受け付けていません

Weak-to-Strong Diffusion with Reflection

要約

拡散生成モデルの目標は、グラデーションスコアマッチングを通じて、学習された分布を実際のデータ分布に合わせることです。
ただし、データの品質、モデリング戦略、および建築設計のトレーニングに固有の制限は、生成された出力と実際のデータの間に避けられないギャップにつながります。
このギャップを減らすために、既存の弱いモデルと強いモデル(つまり、弱い差まで)の推定差を利用して理想的なモデルと強力なモデルのギャップを埋めるための新しいフレームワークである、弱い拡散(W2SD)を提案します。
弱い違いと強さの違いを除いて、除去と反転を交互に交互に採用することにより、W2SDはサンプリング軌道に沿って実際のデータ分布の領域に沿って潜在変数を操作することを理論的に理解します。
W2SDは非常に柔軟で広く適用可能であり、弱いモデルペア(例えば、Dreamshaper vs. SD1.5、優秀な専門家対MOEの悪い専門家)の戦略的選択を通じて多様な改善を可能にします。
広範な実験は、W2SDが人間の好み、審美的な品質、迅速な順守を大幅に改善し、さまざまなモダリティ(例:画像、ビデオ)、アーキテクチャ(UNETベース、DITベース、MOEなど)、およびベンチマークでSOTAパフォーマンスを達成することを示しています。
たとえば、W2SDを使用したJuggernaut-XLは、元の結果よりも最大90%のHPSV2の勝利で改善できます。
さらに、W2SDによって達成されたパフォーマンスの向上は、追加の計算オーバーヘッドを著しく上回り、異なる弱い違いからの累積的な改善により、その実用的な有用性と展開性がさらに強化されます。

要約(オリジナル)

The goal of diffusion generative models is to align the learned distribution with the real data distribution through gradient score matching. However, inherent limitations in training data quality, modeling strategies, and architectural design lead to inevitable gap between generated outputs and real data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel framework that utilizes the estimated difference between existing weak and strong models (i.e., weak-to-strong difference) to bridge the gap between an ideal model and a strong model. By employing a reflective operation that alternates between denoising and inversion with weak-to-strong difference, we theoretically understand that W2SD steers latent variables along sampling trajectories toward regions of the real data distribution. W2SD is highly flexible and broadly applicable, enabling diverse improvements through the strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5, good experts vs. bad experts in MoE). Extensive experiments demonstrate that W2SD significantly improves human preference, aesthetic quality, and prompt adherence, achieving SOTA performance across various modalities (e.g., image, video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to 90% over the original results. Moreover, the performance gains achieved by W2SD markedly outweigh its additional computational overhead, while the cumulative improvements from different weak-to-strong difference further solidify its practical utility and deployability.

arxiv情報

著者 Lichen Bai,Masashi Sugiyama,Zeke Xie
発行日 2025-04-24 16:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Weak-to-Strong Diffusion with Reflection はコメントを受け付けていません

Plasma State Monitoring and Disruption Characterization using Multimodal VAEs

要約

トカマックでプラズマが破壊すると、かなりの熱と電磁負荷が周囲のデバイスコンポーネントに堆積されます。
これらの力は、プラズマ電流と磁場強度でスケーリングされ、将来のデバイスの重要な課題の1つと混乱を引き起こします。
残念ながら、混乱は完全には理解されておらず、多くの異なる根本的な原因を予測するのが困難です。
データ駆動型モデルは、それらを予測することに成功を示していますが、制限された解釈可能性のみを提供します。
一方、大規模な統計分析は、破壊的なパターンを理解するための大きな資産でした。
この論文では、データ駆動型の方法を活用して、破壊特性評価のためのプラズマ状態の解釈可能な表現を見つけます。
具体的には、潜在変数モデルを使用して、診断測定を低次元の潜在表現として表します。
変分自動エンコーダー(VAE)フレームワークの上に構築され、(1)プラズマ軌跡の連続投影のために拡張します。
(2)動作体制を分離するマルチモーダル構造。
(3)破壊的な体制に関する分離。
その後、測定データの統計的特性に基づいて、破壊率と破壊性の連続指標を特定できます。
提案された方法は、約1600のTCV放電のデータセットを使用して実証され、フラットトップの破壊または定期終端を選択します。
(1)特定された破壊リスクと他の血漿特性との相関関係に関する方法を評価します。
(2)さまざまなタイプの混乱を区別する能力。
(3)ダウンストリーム分析。
後者については、反事実的な分析を使用して、混乱に関連するパラメーターの識別に関する実証的な研究を実施します。
全体として、この方法は、解釈可能な方法での混乱への近接性の変化を特徴とする明確な動作体制を適切に識別できます。

要約(オリジナル)

When a plasma disrupts in a tokamak, significant heat and electromagnetic loads are deposited onto the surrounding device components. These forces scale with plasma current and magnetic field strength, making disruptions one of the key challenges for future devices. Unfortunately, disruptions are not fully understood, with many different underlying causes that are difficult to anticipate. Data-driven models have shown success in predicting them, but they only provide limited interpretability. On the other hand, large-scale statistical analyses have been a great asset to understanding disruptive patterns. In this paper, we leverage data-driven methods to find an interpretable representation of the plasma state for disruption characterization. Specifically, we use a latent variable model to represent diagnostic measurements as a low-dimensional, latent representation. We build upon the Variational Autoencoder (VAE) framework, and extend it for (1) continuous projections of plasma trajectories; (2) a multimodal structure to separate operating regimes; and (3) separation with respect to disruptive regimes. Subsequently, we can identify continuous indicators for the disruption rate and the disruptivity based on statistical properties of measurement data. The proposed method is demonstrated using a dataset of approximately 1600 TCV discharges, selecting for flat-top disruptions or regular terminations. We evaluate the method with respect to (1) the identified disruption risk and its correlation with other plasma properties; (2) the ability to distinguish different types of disruptions; and (3) downstream analyses. For the latter, we conduct a demonstrative study on identifying parameters connected to disruptions using counterfactual-like analysis. Overall, the method can adequately identify distinct operating regimes characterized by varying proximity to disruptions in an interpretable manner.

arxiv情報

著者 Yoeri Poels,Alessandro Pau,Christian Donner,Giulio Romanelli,Olivier Sauter,Cristina Venturini,Vlado Menkovski,the TCV team,the WPTE team
発行日 2025-04-24 16:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, physics.plasm-ph | Plasma State Monitoring and Disruption Characterization using Multimodal VAEs はコメントを受け付けていません

Generative Fields: Uncovering Hierarchical Feature Control for StyleGAN via Inverted Receptive Fields

要約

スタイルガンは、GANがランダムノイズから想像上の人々の非常に現実的な顔を合成する能力を実証しています。
GANベースの画像生成の1つの制限は、低次元の潜在空間の強い絡み合いにより、生成された画像の特徴を制御することの難しさです。
画像またはテキストプロンプトを使用してStyleGanを制御することを目的とした以前の作業は、Z潜在スペースよりも表現力がある潜在的な空間でサンプリングを変調しました。
ただし、W Spaceには、特徴合成を直接制御しないため、依然として制限された表現率があります。
また、Wスペースに埋め込まれる機能には、スタイル信号を再構築するためのトレーニング前のプロセスが必要で、アプリケーションが制限されます。
このペーパーでは、「生成フィールド」の概念を紹介して、畳み込みニューラルネットワーク(CNNS)の受容フィールドに触発されたStyleganの階層的特徴の合成を説明します。
さらに、生成フィールド理論とチャネルワイズスタイルの潜在スペースを使用して、スタイルガンのパイプラインを編集する新しい画像を提案します。これは、CNNSの本質的な構造的特徴を利用して、合成時に特徴合成のデアンタングルの制御を実現します。

要約(オリジナル)

StyleGAN has demonstrated the ability of GANs to synthesize highly-realistic faces of imaginary people from random noise. One limitation of GAN-based image generation is the difficulty of controlling the features of the generated image, due to the strong entanglement of the low-dimensional latent space. Previous work that aimed to control StyleGAN with image or text prompts modulated sampling in W latent space, which is more expressive than Z latent space. However, W space still has restricted expressivity since it does not control the feature synthesis directly; also the feature embedding in W space requires a pre-training process to reconstruct the style signal, limiting its application. This paper introduces the concept of ‘generative fields’ to explain the hierarchical feature synthesis in StyleGAN, inspired by the receptive fields of convolution neural networks (CNNs). Additionally, we propose a new image editing pipeline for StyleGAN using generative field theory and the channel-wise style latent space S, utilizing the intrinsic structural feature of CNNs to achieve disentangled control of feature synthesis at synthesis time.

arxiv情報

著者 Zhuo He,Paul Henderson,Nicolas Pugeault
発行日 2025-04-24 16:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generative Fields: Uncovering Hierarchical Feature Control for StyleGAN via Inverted Receptive Fields はコメントを受け付けていません

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

要約

さまざまなビジョンや言語タスクが可能なマルチモーダルの自己回帰モデルのファミリーであるLumina-Mgptを紹介します。特に、テキストの説明から柔軟なフォトリアリックな画像を生成するのに優れています。
マルチモーダル生成前脱同胞(MGPT)から初期化することにより、デコーダーのみのオートレーリング(AR)モデルが、柔軟なプログレッシブな監視された微調整(FP-SFT)を介して高効率を備えた最新の拡散モデルに匹敵する画像生成パフォーマンスを実現できることを実証します。
提案されている明確な画像表現(UNIREP)を装備したLumina-MGPTは、さまざまなアスペクト比の高品質の画像を柔軟に生成できます。
強力な画像生成能力に基づいて、ルミナ-MGPTを統一されたマルチモーダルジェネラリストに昇格させる最初の試みである、監視された微調整(OMNI-SFT)の監視された任意の微調整をさらに探ります。
結果として得られるモデルは、テキストからイメージ/マルチビュー生成、制御可能な生成などの視覚的な生成タスク、セグメンテーションや深さ推定などの視覚認識タスク、マルチターンの視覚的質問のような視覚言語タスクなど、技術的方向のバラ色の可能性を示す視覚的認識タスクなど、多目的なマルチモーダル機能を示しています。
コードとチェックポイントは、https://github.com/alpha-vllm/lumina-mgptで入手できます。

要約(オリジナル)

We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. By initializing from multimodal Generative PreTraining (mGPT), we demonstrate that decoder-only Autoregressive (AR) model can achieve image generation performance comparable to modern diffusion models with high efficiency through Flexible Progressive Supervised Fine-tuning (FP-SFT). Equipped with our proposed Unambiguous image Representation (UniRep), Lumina-mGPT can flexibly generate high-quality images of varying aspect ratios. Building on the strong image generation capabilities, we further explore Ominiponent Supervised Fine-tuning (Omni-SFT), an initial attempt to elevate Lumina-mGPT into a unified multi-modal generalist. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like text-to-image/multiview generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multi-turn visual question answering, showing the rosy potential of the technical direction. Codes and checkpoints are available at https://github.com/Alpha-VLLM/Lumina-mGPT.

arxiv情報

著者 Dongyang Liu,Shitian Zhao,Le Zhuo,Weifeng Lin,Yi Xin,Xinyue Li,Qi Qin,Yu Qiao,Hongsheng Li,Peng Gao
発行日 2025-04-24 16:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining はコメントを受け付けていません

DDU-Net: A Domain Decomposition-Based CNN for High-Resolution Image Segmentation on Multiple GPUs

要約

超高解像度画像のセグメンテーションは、空間情報の喪失や計算非効率性などの課題をもたらします。
この作業では、エンコーダデコダーアーキテクチャとこれらの課題に対処するためのドメイン分解戦略を組み合わせた新しいアプローチが提案されています。
具体的には、ドメイン分解ベースのU-NET(DDU-NET)アーキテクチャが導入されています。これは、個別のデバイスで個別に処理できる重複しないパッチに画像を分割します。
通信ネットワークが追加され、空間コンテキストの理解を高めるために、パッチ間情報交換を促進します。
実験的検証は、通信ネットワークの有効性を測定するように設計された合成データセットで実行されます。
次に、パフォーマンスは、DeepGlobeの土地カバー分類データセットで実際のベンチマークデータセットとしてテストされます。
結果は、16ドル\ Times16 $非重複サブイメージに分割された画像のパッチ間通信を含むアプローチが、パッチ間通信のない同じネットワークと比較して、2-3 \、\%$の交差点(IOU)スコアよりも高い交差点を達成することを示しています。
通信を含むネットワークのパフォーマンスは、完全な画像でトレーニングされたベースラインU-NETのパフォーマンスと同等であり、私たちのモデルが空間的コンテキストを保存しながら超高解像度画像をセグメント化するための効果的なソリューションを提供することを示しています。
このコードは、https://github.com/corne00/ddu-netで入手できます。

要約(オリジナル)

The segmentation of ultra-high resolution images poses challenges such as loss of spatial information or computational inefficiency. In this work, a novel approach that combines encoder-decoder architectures with domain decomposition strategies to address these challenges is proposed. Specifically, a domain decomposition-based U-Net (DDU-Net) architecture is introduced, which partitions input images into non-overlapping patches that can be processed independently on separate devices. A communication network is added to facilitate inter-patch information exchange to enhance the understanding of spatial context. Experimental validation is performed on a synthetic dataset that is designed to measure the effectiveness of the communication network. Then, the performance is tested on the DeepGlobe land cover classification dataset as a real-world benchmark data set. The results demonstrate that the approach, which includes inter-patch communication for images divided into $16\times16$ non-overlapping subimages, achieves a $2-3\,\%$ higher intersection over union (IoU) score compared to the same network without inter-patch communication. The performance of the network which includes communication is equivalent to that of a baseline U-Net trained on the full image, showing that our model provides an effective solution for segmenting ultra-high-resolution images while preserving spatial context. The code is available at https://github.com/corne00/DDU-Net.

arxiv情報

著者 Corné Verburg,Alexander Heinlein,Eric C. Cyr
発行日 2025-04-24 16:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 65N55, 68T07, 68U10, 68W10, 68W15, cs.CV, cs.DC, cs.LG, I.2.6 | DDU-Net: A Domain Decomposition-Based CNN for High-Resolution Image Segmentation on Multiple GPUs はコメントを受け付けていません

jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

要約

対照的な言語イメージ前削除(CLIP)は、クロスモーダル情報の検索およびマルチモーダル理解タスクに広く使用されています。
ただし、クリップモデルは、主にクロスモーダルビジョン言語タスク用に最適化されており、シングルモードテキストタスクではアンダーパフォーマンスです。
さらに、これらのモデルはしばしば英語のデータセットでトレーニングされているため、多言語の理解がありません。
さらに、視覚的な理解の観点から、以前のクリップベースのモデルは、視覚的に豊富なドキュメントを十分に理解していないことを示しています。
この作業では、テキストのみとクロスモーダルタスクの両方をサポートするために、マルチタスクおよびマルチステージの対照学習パラダイムを介してテキストペア、トリプレット、画像テキストペアで訓練された対照的な視覚言語モデルであるJina-Clip-V2を提案します。
多言語テキストエンコーダーを使用し、トレーニングデータセットを展開して、ヒンディー語、中国語、ドイツ語、フランス語などを含む29の非英語言語の多言語テキストと、視覚的に豊富な文書の画像を含めます。
モデルのパフォーマンスを評価し、Jina-Clip-V2が、ゼロショットのテキストのみの検索、セマンティックテキストの類似性、および英語と多言語の両方の設定の両方のクロスモーダル検索タスクで最先端のクリップベースのモデルよりも顕著な改善を達成することを示します。
Jina-Clip-V2は、次元を埋め込む柔軟性を提供し、ユーザーが表現の粒度を選択できるようにします。
Jina-Clip-V2は、https://huggingface.co/jinaai/jina-clip-v2で公開されています。

要約(オリジナル)

Contrastive Language-Image Pretraining (CLIP) has been widely used for crossmodal information retrieval and multimodal understanding tasks. However, CLIP models are mainly optimized for crossmodal vision-language tasks and underperform in single-mode text tasks. Moreover, these models are often trained on English datasets and therefore lack multilingual understanding. Additionally, from a visual understanding perspective, previous CLIP-based models exhibit insufficient understanding of visually rich documents. In this work, we propose jina-clip-v2, a contrastive vision-language model trained on text pairs, triplets and image-text pairs via a multi-task and multi-stage contrastive learning paradigm in order to support both text-only and crossmodal tasks. We employ a multilingual text encoder and expand the training dataset to include multilingual texts from 29 non-English languages, including Hindi, Chinese, German, French, and others, as well as images of visually rich documents. We evaluate the model’s performance and show that jina-clip-v2 achieves notable improvements over state-of-the-art CLIP-based models in zero-shot text-only retrieval, semantic textual similarity, and crossmodal retrieval tasks in both English and multilingual settings. jina-clip-v2 also provides for flexibility in embedding dimensionality, enabling users to select the granularity of the representations. jina-clip-v2 is publicly available at https://huggingface.co/jinaai/jina-clip-v2.

arxiv情報

著者 Andreas Koukounas,Georgios Mastrapas,Sedigheh Eslami,Bo Wang,Mohammad Kalim Akram,Michael Günther,Isabelle Mohr,Saba Sturua,Nan Wang,Han Xiao
発行日 2025-04-24 16:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.CV, cs.IR, I.2.10 | jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images はコメントを受け付けていません

CasualHDRSplat: Robust High Dynamic Range 3D Gaussian Splatting from Casually Captured Videos

要約

最近、ニューラル放射輝度フィールド(NERF)や3Dガウスのスプラッティング(3DG)などのマルチビュー画像からの写真リアリックな新規ビューの合成は、優れたパフォーマンスのために広範囲にわたる注目を集めています。
ただし、ほとんどの作業は低ダイナミックレンジ(LDR)画像に依存しており、シーンの詳細のキャプチャを制限しています。
一部の以前の作品では、高ダイナミックレンジ(HDR)シーンの再構築に焦点を当てています。通常、露出時間中に固定カメラの位置で異なる露出時間を持つマルチビューシャープ画像をキャプチャする必要があります。
より柔軟なデータ収集のために、1段階の方法を提案します:\ textBf {casuaryHdrsplat}は、重度の動きのぼかしが存在していても、自動暴露を有効にして、カジュアルにキャプチャされたビデオから3D HDRシーンを簡単かつ堅牢に再構築します。
\ textbf {casuaryHdrsPlat}には、露出時間、カメラ応答機能(CRF)、カメラポーズ、およびシャープな3D HDRシーンを共同で最適化できるように、最初に連続時間軌道制約をイメージングプロセスに適用する統合可能な物理イメージングモデルが含まれています。
広範な実験は、私たちのアプローチが堅牢性と品質を提供するという点で既存の方法よりも優れていることを示しています。
ソースコードはhttps://github.com/wu-cvgl/casualhdrsplatで入手できます

要約(オリジナル)

Recently, photo-realistic novel view synthesis from multi-view images, such as neural radiance field (NeRF) and 3D Gaussian Splatting (3DGS), have garnered widespread attention due to their superior performance. However, most works rely on low dynamic range (LDR) images, which limits the capturing of richer scene details. Some prior works have focused on high dynamic range (HDR) scene reconstruction, typically require capturing of multi-view sharp images with different exposure times at fixed camera positions during exposure times, which is time-consuming and challenging in practice. For a more flexible data acquisition, we propose a one-stage method: \textbf{CasualHDRSplat} to easily and robustly reconstruct the 3D HDR scene from casually captured videos with auto-exposure enabled, even in the presence of severe motion blur and varying unknown exposure time. \textbf{CasualHDRSplat} contains a unified differentiable physical imaging model which first applies continuous-time trajectory constraint to imaging process so that we can jointly optimize exposure time, camera response function (CRF), camera poses, and sharp 3D HDR scene. Extensive experiments demonstrate that our approach outperforms existing methods in terms of robustness and rendering quality. Our source code will be available at https://github.com/WU-CVGL/CasualHDRSplat

arxiv情報

著者 Shucheng Gong,Lingzhe Zhao,Wenpu Li,Hong Xie,Yin Zhang,Shiyu Zhao,Peidong Liu
発行日 2025-04-24 16:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.MM | CasualHDRSplat: Robust High Dynamic Range 3D Gaussian Splatting from Casually Captured Videos はコメントを受け付けていません