HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization

要約

このペーパーでは、ビデオ音楽の理解を進めるために設計された包括的なデータセットであるHarmonysetを紹介します。
Harmonysetは、リズミカルな同期、感情的整合、テーマの一貫性、および文化的関連性に関する詳細情報で注釈が付けられた48,328の多様なビデオ音楽ペアで構成されています。
効率的な注釈のためのマルチステップのヒューマンマシンコラボレーションフレームワークを提案し、人間の洞察と機械で生成された説明を組み合わせて、重要な遷移を特定し、複数の次元にわたってアライメントを評価します。
さらに、タスクとメトリックを備えた新しい評価フレームワークを紹介して、リズム、感情、テーマ、文化的コンテキストなど、ビデオと音楽の多次元的アライメントを評価します。
私たちの広範な実験は、Harmonysetが提案された評価フレームワークとともに、マルチモーダルモデルがビデオと音楽の複雑な関係をキャプチャして分析する能力を大幅に向上させることを示しています。

要約(オリジナル)

This paper introduces HarmonySet, a comprehensive dataset designed to advance video-music understanding. HarmonySet consists of 48,328 diverse video-music pairs, annotated with detailed information on rhythmic synchronization, emotional alignment, thematic coherence, and cultural relevance. We propose a multi-step human-machine collaborative framework for efficient annotation, combining human insights with machine-generated descriptions to identify key transitions and assess alignment across multiple dimensions. Additionally, we introduce a novel evaluation framework with tasks and metrics to assess the multi-dimensional alignment of video and music, including rhythm, emotion, theme, and cultural context. Our extensive experiments demonstrate that HarmonySet, along with the proposed evaluation framework, significantly improves the ability of multimodal models to capture and analyze the intricate relationships between video and music.

arxiv情報

著者 Zitang Zhou,Ke Mei,Yu Lu,Tianyi Wang,Fengyun Rao
発行日 2025-03-04 15:31:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization はコメントを受け付けていません

Catheter Detection and Segmentation in X-ray Images via Multi-task Learning

要約

X線蛍光視鏡画像のカテーテルやワイヤなどの手術装置の自動検出とセグメンテーションは、低侵襲性心臓手術における画像ガイダンスを強化する可能性があります。
この論文では、エンドツーエンドの深い学習フレームワークで、カテーテルの電極とカテーテルセグメンテーションのリアルタイムで正確なローカリゼーションを実現するために、ResNetアーキテクチャを複数の予測ヘッドと統合する畳み込みニューラルネットワークモデルを紹介します。
また、マルチタスク学習戦略を提案します。この戦略では、モデルが正確な電極検出とカテーテルセグメンテーションの両方を同時に実行するように訓練されています。
このアプローチの重要な課題は、両方のタスクで最適なパフォーマンスを達成することです。
これに対処するために、新しいマルチレベルの動的リソース優先順位付け方法を紹介します。
この方法は、トレーニング中にサンプルとタスクの重みを動的に調整して、より挑戦的なタスクに効果的に優先順位を付けます。タスクの難易度はパフォーマンスに反比例し、トレーニングプロセス全体で進化します。
パブリックデータセットとプライベートデータセットの両方での実験により、この方法の精度が、単一セグメンテーションタスクと検出およびセグメンテーションマルチタスクの両方で、既存の最先端の方法を上回ることが実証されています。
私たちのアプローチは、精度と効率の間の良好なトレードオフを達成し、リアルタイムの外科的ガイダンスアプリケーションに適しています。

要約(オリジナル)

Automated detection and segmentation of surgical devices, such as catheters or wires, in X-ray fluoroscopic images have the potential to enhance image guidance in minimally invasive heart surgeries. In this paper, we present a convolutional neural network model that integrates a resnet architecture with multiple prediction heads to achieve real-time, accurate localization of electrodes on catheters and catheter segmentation in an end-to-end deep learning framework. We also propose a multi-task learning strategy in which our model is trained to perform both accurate electrode detection and catheter segmentation simultaneously. A key challenge with this approach is achieving optimal performance for both tasks. To address this, we introduce a novel multi-level dynamic resource prioritization method. This method dynamically adjusts sample and task weights during training to effectively prioritize more challenging tasks, where task difficulty is inversely proportional to performance and evolves throughout the training process. Experiments on both public and private datasets have demonstrated that the accuracy of our method surpasses the existing state-of-the-art methods in both single segmentation task and in the detection and segmentation multi-task. Our approach achieves a good trade-off between accuracy and efficiency, making it well-suited for real-time surgical guidance applications.

arxiv情報

著者 Lin Xi,Yingliang Ma,Ethan Koland,Sandra Howell,Aldo Rinaldi,Kawal S. Rhode
発行日 2025-03-04 15:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Catheter Detection and Segmentation in X-ray Images via Multi-task Learning はコメントを受け付けていません

UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface

要約

ジェネラリストモデルは、言語とビジョンの両方のタスクで顕著な成功を収めており、統一されたモデリングの可能性を示しています。
ただし、これらのモデルへの検出やセグメンテーションなどの細かい知覚タスクを効果的に統合することは、依然として重要な課題です。
これは主に、これらのタスクがモデリングプロセスを複雑にすることができるタスク固有の設計とアーキテクチャに大きく依存することが多いためです。
この課題に対処するために、\ textbf {u}が\ textbf {f} ine-grainedの視覚知覚タスクを\ textbf {o}ペンエンド言語インターフェイスを介してnifies \ textbf {f} ine-greainsの視覚知覚タスクを提示します。
すべての知覚ターゲットを言語空間に変換することにより、\私たちはオブジェクトレベルの検出、ピクセルレベルのセグメンテーション、および画像レベルのビジョン言語タスクを単一のモデルに統合します。
さらに、セグメンテーションタスクをサポートするために言語インターフェイスのみに依存する新しい埋め込み検索アプローチを紹介します。
私たちのフレームワークは、きめ細かい知覚とビジョン言語のタスクの間のギャップを橋渡しし、複雑なタスク固有のデザインを備えた方法と同等または優れたパフォーマンスを達成しながら、建築設計とトレーニング戦略を大幅に簡素化します。
5つの標準的な視覚認識データセットに関するマルチタスクトレーニングの後、\私たちは、COCOインスタンスセグメンテーションの12.3マップ、ADE20Kセマンティックセグメンテーションで3.3 MIOUにより、以前の最先端のジェネラリストモデルを上回ります。
さらに、私たちの方法は、既存のMLLMとシームレスに統合され、きめの細かい知覚能力と高度な言語能力を効果的に組み合わせることで、推論セグメンテーションなどのより挑戦的なタスクを可能にします。
コードとモデルはhttps://github.com/nnnth/ufoで入手できます。

要約(オリジナル)

Generalist models have achieved remarkable success in both language and vision-language tasks, showcasing the potential of unified modeling. However, effectively integrating fine-grained perception tasks like detection and segmentation into these models remains a significant challenge. This is primarily because these tasks often rely heavily on task-specific designs and architectures that can complicate the modeling process. To address this challenge, we present \ours, a framework that \textbf{U}nifies \textbf{F}ine-grained visual perception tasks through an \textbf{O}pen-ended language interface. By transforming all perception targets into the language space, \ours unifies object-level detection, pixel-level segmentation, and image-level vision-language tasks into a single model. Additionally, we introduce a novel embedding retrieval approach that relies solely on the language interface to support segmentation tasks. Our framework bridges the gap between fine-grained perception and vision-language tasks, significantly simplifying architectural design and training strategies while achieving comparable or superior performance to methods with intricate task-specific designs. After multi-task training on five standard visual perception datasets, \ours outperforms the previous state-of-the-art generalist models by 12.3 mAP on COCO instance segmentation and 3.3 mIoU on ADE20K semantic segmentation. Furthermore, our method seamlessly integrates with existing MLLMs, effectively combining fine-grained perception capabilities with their advanced language abilities, thereby enabling more challenging tasks such as reasoning segmentation. Code and models are available at https://github.com/nnnth/UFO.

arxiv情報

著者 Hao Tang,Chenwei Xie,Haiyang Wang,Xiaoyi Bao,Tingyu Weng,Pandeng Li,Yun Zheng,Liwei Wang
発行日 2025-03-04 15:36:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface はコメントを受け付けていません

A Joint Visual Compression and Perception Framework for Neuralmorphic Spiking Camera

要約

NeuralMorphic Spikeカメラの出現は、比類のない時間分解能で連続運動をキャプチャする能力に大きな注意を払います。
哺乳類のビジョンシステムからのインスピレーションは、空間セマンティクスとモーション情報を個別に処理するためのデュアルパスウェイアーキテクチャを提案します。これは、圧縮のための特徴を生成するために統合されます。デコードされた機能とモーションベクトル間の一貫性も確実に導入されます。
当社のスキームは、スパイク圧縮と分析のための最先端の(SOTA)パフォーマンスを達成します。SOTAコーデックと比較して平均17.25%のBDレート削減を達成し、スパイクベースの分類のスピロコよりも4.3%の精度の改善を達成し、88.26%の複雑さの減少と42.41%の侵入時間を節約します。

要約(オリジナル)

The advent of neuralmorphic spike cameras has garnered significant attention for their ability to capture continuous motion with unparalleled temporal resolution.However, this imaging attribute necessitates considerable resources for binary spike data storage and transmission.In light of compression and spike-driven intelligent applications, we present the notion of Spike Coding for Intelligence (SCI), wherein spike sequences are compressed and optimized for both bit-rate and task performance.Drawing inspiration from the mammalian vision system, we propose a dual-pathway architecture for separate processing of spatial semantics and motion information, which is then merged to produce features for compression.A refinement scheme is also introduced to ensure consistency between decoded features and motion vectors.We further propose a temporal regression approach that integrates various motion dynamics, capitalizing on the advancements in warping and deformation simultaneously.Comprehensive experiments demonstrate our scheme achieves state-of-the-art (SOTA) performance for spike compression and analysis.We achieve an average 17.25% BD-rate reduction compared to SOTA codecs and a 4.3% accuracy improvement over SpiReco for spike-based classification, with 88.26% complexity reduction and 42.41% inference time saving on the encoding side.

arxiv情報

著者 Kexiang Feng,Chuanmin Jia,Siwei Ma,Wen Gao
発行日 2025-03-04 15:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A Joint Visual Compression and Perception Framework for Neuralmorphic Spiking Camera はコメントを受け付けていません

Creating Sorted Grid Layouts with Gradient-based Optimization

要約

視覚的にソートされたグリッドレイアウトは、空間的近接性を類似関係に合わせることにより、2次元空間で高次元ベクトルを整理するための効率的な方法を提供します。
このアプローチは、データポイントから画像に至るまでの多様な要素の効果的な並べ替えを促進し、かなりの数の要素の同時視覚化を可能にします。
ただし、2次元グリッドのデータをソートすることは、その複雑さが高いために課題です。
64の要素を備えた小さな8 x 8グリッドであっても、可能な配置の数は$ 1.3 \ CDOT 10^{89} $を超えています – 宇宙の原子の数を超えており、ブルートフォースソリューションを実用的にします。
ソートされたグリッドレイアウトを決定するという課題に対処するためにさまざまな方法が提案されていますが、勾配ベースの最適化の可能性を調査した人はいません。
この論文では、グラジエントの最適化を初めて活用するグリッドベースのソートの新しい方法を提示します。
「有効な」順列マトリックスの生成を確保するという2つの対立する目標のバランスをとる新しい損失関数を導入し、並べ替えられたグリッドの品質を評価するメトリックに触発されたベクトル間の類似性を反映するようにグリッド上の配置を最適化します。
学習ベースのアプローチは本質的に計算的に複雑ですが、我々の方法は、既存の手法と比較して優れたソート品質を備えたソート付きグリッドレイアウトを生成する有望な結果を示しています。

要約(オリジナル)

Visually sorted grid layouts provide an efficient method for organizing high-dimensional vectors in two-dimensional space by aligning spatial proximity with similarity relationships. This approach facilitates the effective sorting of diverse elements ranging from data points to images, and enables the simultaneous visualization of a significant number of elements. However, sorting data on two-dimensional grids is a challenge due to its high complexity. Even for a small 8-by-8 grid with 64 elements, the number of possible arrangements exceeds $1.3 \cdot 10^{89}$ – more than the number of atoms in the universe – making brute-force solutions impractical. Although various methods have been proposed to address the challenge of determining sorted grid layouts, none have investigated the potential of gradient-based optimization. In this paper, we present a novel method for grid-based sorting that exploits gradient optimization for the first time. We introduce a novel loss function that balances two opposing goals: ensuring the generation of a ‘valid’ permutation matrix, and optimizing the arrangement on the grid to reflect the similarity between vectors, inspired by metrics that assess the quality of sorted grids. While learning-based approaches are inherently computationally complex, our method shows promising results in generating sorted grid layouts with superior sorting quality compared to existing techniques.

arxiv情報

著者 Kai Uwe Barthel,Florian Tim Barthel,Peter Eisert,Nico Hezel,Konstantin Schall
発行日 2025-03-04 15:49:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Creating Sorted Grid Layouts with Gradient-based Optimization はコメントを受け付けていません

UAR-NVC: A Unified AutoRegressive Framework for Memory-Efficient Neural Video Compression

要約

暗黙の神経表現(INR)は、ビデオをニューラルネットワークとして表現することにより、ビデオ圧縮の重要な可能性を示しています。
ただし、フレームの数が増えると、トレーニングと推論のメモリ消費が大幅に増加し、リソースが制約のシナリオで課題をもたらします。
フレームごとにビデオフレームを処理し、長いビデオを効率的に圧縮できる従来のビデオ圧縮フレームワークの成功に触発され、INRのこのモデリング戦略を採用して、タイムラインベースの自己回帰モデリングの観点からフレームワークを統合することを目指しています。
この作業では、自己回帰(AR)の観点からINRモデルの新しい理解を提示し、メモリ効率の高いニューラルビデオ圧縮(UAR-NVC)の統一された自己回帰フレームワークを導入します。
UAR-NVCは、統一された自己回帰パラダイムの下で、タイムラインベースのニューラルビデオ圧縮を統合します。
ビデオをいくつかのクリップに分割し、各クリップを異なるINRモデルインスタンスを使用してプロセスし、両方の圧縮フレームワークの利点を活用しながら、どちらの形式にもシームレスな適応を可能にします。
クリップ間の時間的冗長性をさらに減らすために、2つのモジュールを設計して、これらのモデルパラメーターの初期化、トレーニング、および圧縮を最適化します。
UAR-NVCは、クリップの長さを変化させることにより、調整可能なレイテンシをサポートします。
広範な実験結果は、柔軟なビデオクリップ設定を備えたUAR-NVCが、リソースに制約のある環境に適応し、さまざまなベースラインモデルと比較してパフォーマンスを大幅に改善できることを示しています。

要約(オリジナル)

Implicit Neural Representations (INRs) have demonstrated significant potential in video compression by representing videos as neural networks. However, as the number of frames increases, the memory consumption for training and inference increases substantially, posing challenges in resource-constrained scenarios. Inspired by the success of traditional video compression frameworks, which process video frame by frame and can efficiently compress long videos, we adopt this modeling strategy for INRs to decrease memory consumption, while aiming to unify the frameworks from the perspective of timeline-based autoregressive modeling. In this work, we present a novel understanding of INR models from an autoregressive (AR) perspective and introduce a Unified AutoRegressive Framework for memory-efficient Neural Video Compression (UAR-NVC). UAR-NVC integrates timeline-based and INR-based neural video compression under a unified autoregressive paradigm. It partitions videos into several clips and processes each clip using a different INR model instance, leveraging the advantages of both compression frameworks while allowing seamless adaptation to either in form. To further reduce temporal redundancy between clips, we design two modules to optimize the initialization, training, and compression of these model parameters. UAR-NVC supports adjustable latencies by varying the clip length. Extensive experimental results demonstrate that UAR-NVC, with its flexible video clip setting, can adapt to resource-constrained environments and significantly improve performance compared to different baseline models.

arxiv情報

著者 Jia Wang,Xinfeng Zhang,Gai Zhang,Jun Zhu,Lv Tang,Li Zhang
発行日 2025-03-04 15:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | UAR-NVC: A Unified AutoRegressive Framework for Memory-Efficient Neural Video Compression はコメントを受け付けていません

Near-infrared Image Deblurring and Event Denoising with Synergistic Neuromorphic Imaging

要約

夜間のダイナミックおよびその他の非常に暗い条件におけるイメージングの分野は、近年、印象的で変革的な進歩を見てきました。これは、新しいセンシングアプローチの台頭、たとえば近赤外(NIR)カメラの高感度とイベントカメラを最小限に抑えるイベントカメラの台頭によって推進されています。
ただし、近赤外カメラの不適切な暴露比は、歪みやぼやけの影響を受けやすくなります。
イベントカメラは、夜間の弱い信号にも非常に敏感ですが、干渉する傾向があり、多くの場合、かなりのノイズを生成し、観測と分析を大幅に分解します。
ここでは、NIRイメージングとイベントベースの技術と組み合わせた低光光イメージングの新しいフレームワークを開発します。これは、NIRイメージの脱bluringとイベントの除去を共同で実現できる相乗的神経形成イメージングと呼ばれます。
NIR画像のクロスモーダル機能と、スペクトルの一貫性と高次相互作用を介して目に見えるイベントのクロスモーダル機能を活用して、NIRの画像とイベントは同時に融合、強化、ブートストラップされます。
実際および現実的にシミュレートされたシーケンスの実験は、私たちの方法の有効性を示し、実際のシナリオで他の方法よりも精度と堅牢性が優れていることを示しています。
この研究は、NIRの画像とイベントの両方を強化するための推進力を与えます。

要約(オリジナル)

The fields of imaging in the nighttime dynamic and other extremely dark conditions have seen impressive and transformative advancements in recent years, partly driven by the rise of novel sensing approaches, e.g., near-infrared (NIR) cameras with high sensitivity and event cameras with minimal blur. However, inappropriate exposure ratios of near-infrared cameras make them susceptible to distortion and blur. Event cameras are also highly sensitive to weak signals at night yet prone to interference, often generating substantial noise and significantly degrading observations and analysis. Herein, we develop a new framework for low-light imaging combined with NIR imaging and event-based techniques, named synergistic neuromorphic imaging, which can jointly achieve NIR image deblurring and event denoising. Harnessing cross-modal features of NIR images and visible events via spectral consistency and higher-order interaction, the NIR images and events are simultaneously fused, enhanced, and bootstrapped. Experiments on real and realistically simulated sequences demonstrate the effectiveness of our method and indicate better accuracy and robustness than other methods in practical scenarios. This study gives impetus to enhance both NIR images and events, which paves the way for high-fidelity low-light imaging and neuromorphic reasoning.

arxiv情報

著者 Chao Qu,Shuo Zhu,Yuhang Wang,Zongze Wu,Xiaoyu Chen,Edmund Y. Lam,Jing Han
発行日 2025-03-04 16:08:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Near-infrared Image Deblurring and Event Denoising with Synergistic Neuromorphic Imaging はコメントを受け付けていません

ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points

要約

アーキテクチャプログラムに基づいて構築された新しい学習フレームワークであるArcproを紹介し、非常にまばらで低品質のポイント雲から構造化された3D抽象化を回復します。
具体的には、ドメイン固有の言語(DSL)を設計して、プログラムとして構築構造を階層的に表現し、メッシュに効率的に変換できます。
フィードフォワードプロセスを使用してデータ合成をトレーニングし、ネットワークが逆予測を行うことを可能にすることにより、フィードフォワードおよび逆手続きモデリングを橋渡しします。
ポイントプログラムペアでエンコーダーデコーダーをトレーニングして、非構造化ポイントクラウドからアーキテクチャプログラムへのマッピングを確立します。3D畳み込みエンコーダがポイントクラウド機能を抽出し、トランスデコーダーがトークン化されたフォームのプログラムを自動再生します。
私たちの方法による推論は非常に効率的であり、もっともらしく忠実な3D抽象化を生成します。
包括的な実験は、Arcproが従来の建築プロキシの再構成と学習ベースの抽象化方法の両方を上回ることを示しています。
さらに、マルチビューイメージと自然言語の入力を使用する可能性をさらに調査します。

要約(オリジナル)

We introduce ArcPro, a novel learning framework built on architectural programs to recover structured 3D abstractions from highly sparse and low-quality point clouds. Specifically, we design a domain-specific language (DSL) to hierarchically represent building structures as a program, which can be efficiently converted into a mesh. We bridge feedforward and inverse procedural modeling by using a feedforward process for training data synthesis, allowing the network to make reverse predictions. We train an encoder-decoder on the points-program pairs to establish a mapping from unstructured point clouds to architectural programs, where a 3D convolutional encoder extracts point cloud features and a transformer decoder autoregressively predicts the programs in a tokenized form. Inference by our method is highly efficient and produces plausible and faithful 3D abstractions. Comprehensive experiments demonstrate that ArcPro outperforms both traditional architectural proxy reconstruction and learning-based abstraction methods. We further explore its potential to work with multi-view image and natural language inputs.

arxiv情報

著者 Qirui Huang,Runze Zhang,Kangjun Liu,Minglun Gong,Hao Zhang,Hui Huang
発行日 2025-03-04 16:10:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points はコメントを受け付けていません

Evaluating CrowdSplat: Perceived Level of Detail for Gaussian Crowds

要約

効率的で現実的なクラウドレンダリングは、Virtual Reality(VR)やゲームなど、多くのリアルタイムグラフィックアプリケーションの重要な要素です。
この目的のために、多角形のメッシュ、画像ベースの詐欺師、ポイント雲などの詳細(LOD)アバター表現が提案され、評価されています。
最近では、3Dガウスの飛び散は、リアルタイムの観客レンダリングの潜在的な方法として調査されています。
この論文では、3Dガウスアバターの知覚品質を決定することを目的とした2つの代替強制選択(2AFC)実験を紹介します。
3つの要因が調査されました:モーション、LOD(#Gaussians)、およびピクセルのアバターの高さ(表示距離に対応)。
参加者は、アニメーション化された3Dガウスアバターのペアを見て、最も詳細なものを選択する任務を負っていました。
私たちの調査結果は、ガウスに拠点を置く群衆レンダリングにおけるLOD戦略の最適化を知らせることができ、それにより、リアルタイムアプリケーションで視覚品質を維持しながら効率的なレンダリングを達成するのに役立ちます。

要約(オリジナル)

Efficient and realistic crowd rendering is an important element of many real-time graphics applications such as Virtual Reality (VR) and games. To this end, Levels of Detail (LOD) avatar representations such as polygonal meshes, image-based impostors, and point clouds have been proposed and evaluated. More recently, 3D Gaussian Splatting has been explored as a potential method for real-time crowd rendering. In this paper, we present a two-alternative forced choice (2AFC) experiment that aims to determine the perceived quality of 3D Gaussian avatars. Three factors were explored: Motion, LOD (i.e., #Gaussians), and the avatar height in Pixels (corresponding to the viewing distance). Participants viewed pairs of animated 3D Gaussian avatars and were tasked with choosing the most detailed one. Our findings can inform the optimization of LOD strategies in Gaussian-based crowd rendering, thereby helping to achieve efficient rendering while maintaining visual quality in real-time applications.

arxiv情報

著者 Xiaohan Sun,Yinghan Xu,John Dingliana,Carol O’Sullivan
発行日 2025-03-04 16:17:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Evaluating CrowdSplat: Perceived Level of Detail for Gaussian Crowds はコメントを受け付けていません

Deep Learning-Enhanced Visual Monitoring in Hazardous Underwater Environments with a Swarm of Micro-Robots

要約

水中貯蔵施設などの極端な環境の長期的な監視と調査は、費用がかかり、労働集約的で、危険です。
このプロセスを低コストの共同ロボットで自動化すると、効率を大幅に改善できます。
これらのロボットは、さまざまな位置からの画像をキャプチャします。これは、施設の時空モデルを作成するために同時に処理する必要があります。
このホワイトペーパーでは、データシミュレーション、座標予測のためのマルチモーダルディープラーニングネットワーク、およびロボットの位置とオリエンテーションのドリフトと回転を引き起こす環境障害によってもたらされる課題に対処するための画像の再組み立てを統合する新しいアプローチを提案します。
私たちのアプローチは、スナップショットからの視覚情報、マスクからのグローバルな位置的コンテキスト、およびノイズの多い座標を統合することにより、騒々しい環境でのアライメントの精度を高めます。
水中の設定での実際のロボット操作をシミュレートする合成データを使用した広範な実験を通じて、私たちの方法を検証します。
結果は、非常に高い座標予測精度ともっともらしい画像アセンブリを示しており、アプローチの実際の適用性を示しています。
組み立てられた画像は、効果的な監視と検査のために水中環境の明確で一貫したビューを提供し、極端な設定でのより広範な使用の可能性を示し、危険なフィールドモニタリングの安全性、効率、コスト削減にさらに貢献します。
コードはhttps://github.com/chrischen1023/micro-robot-swarmで入手できます。

要約(オリジナル)

Long-term monitoring and exploration of extreme environments, such as underwater storage facilities, is costly, labor-intensive, and hazardous. Automating this process with low-cost, collaborative robots can greatly improve efficiency. These robots capture images from different positions, which must be processed simultaneously to create a spatio-temporal model of the facility. In this paper, we propose a novel approach that integrates data simulation, a multi-modal deep learning network for coordinate prediction, and image reassembly to address the challenges posed by environmental disturbances causing drift and rotation in the robots’ positions and orientations. Our approach enhances the precision of alignment in noisy environments by integrating visual information from snapshots, global positional context from masks, and noisy coordinates. We validate our method through extensive experiments using synthetic data that simulate real-world robotic operations in underwater settings. The results demonstrate very high coordinate prediction accuracy and plausible image assembly, indicating the real-world applicability of our approach. The assembled images provide clear and coherent views of the underwater environment for effective monitoring and inspection, showcasing the potential for broader use in extreme settings, further contributing to improved safety, efficiency, and cost reduction in hazardous field monitoring. Code is available on https://github.com/ChrisChen1023/Micro-Robot-Swarm.

arxiv情報

著者 Shuang Chen,Yifeng He,Barry Lennox,Farshad Arvin,Amir Atapour-Abarghouei
発行日 2025-03-04 16:19:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Deep Learning-Enhanced Visual Monitoring in Hazardous Underwater Environments with a Swarm of Micro-Robots はコメントを受け付けていません