Lightweight Relational Embedding in Task-Interpolated Few-Shot Networks for Enhanced Gastrointestinal Disease Classification

要約

大腸内視鏡検査のような従来の診断方法は、結腸直腸癌(CRC)の正確な診断に必要な侵襲的でありながら重要なツールです。
初期段階でのCRCの検出は、患者の生存率の増加に不可欠です。
ただし、大腸内視鏡検査は、適切で高品質の内視鏡画像の取得に依存しています。
長期にわたる侵襲的処置は患者にとって本質的に危険ですが、画像が診断の精度を妨げる最適でないまたは不十分な画像が妨げられます。
通常、ビデオフレームから派生したこれらの画像は、多くの場合、同様のパターンを示し、差別に課題を提起します。
これらの課題を克服するために、いくつかのショット学習アーキテクチャに基づいて構築された新しいディープラーニングネットワークを提案します。これには、カスタマイズされた特徴抽出器、タスク補間、リレーショナル埋め込み、およびバイレベルのルーティング注意メカニズムが含まれます。
少数のショット学習パラダイムにより、モデルは目に見えない細かい内視鏡画像パターンに迅速に適応することができ、タスクの補間により、さまざまな機器の視点から人工的に不十分な画像を増やします。
私たちのリレーショナル埋め込みアプローチは、重要な内像内機能を識別し、連続した内視鏡フレーム間の画像間遷移をキャプチャし、畳み込みニューラルネットワーク(CNN)の限界を克服します。
軽量の注意メカニズムの統合により、適切な画像領域の集中分析が保証されます。
多様なデータセットでトレーニングすることにより、内視鏡画像の処理のためにモデルの一般化可能性と堅牢性が顕著に改善されます。
Kvasir Datasetで評価されたこのモデルは、優れたパフォーマンスを実証し、90.1 \%の精度、0.845の精度、0.942のリコール、F1スコア0.891を達成しました。
これは、現在の最先端の方法を超えており、高度な画像分析を通じてCRC検出を最適化することにより、侵入性大腸内視鏡検査の課題に対する有望なソリューションを提示します。

要約(オリジナル)

Traditional diagnostic methods like colonoscopy are invasive yet critical tools necessary for accurately diagnosing colorectal cancer (CRC). Detection of CRC at early stages is crucial for increasing patient survival rates. However, colonoscopy is dependent on obtaining adequate and high-quality endoscopic images. Prolonged invasive procedures are inherently risky for patients, while suboptimal or insufficient images hamper diagnostic accuracy. These images, typically derived from video frames, often exhibit similar patterns, posing challenges in discrimination. To overcome these challenges, we propose a novel Deep Learning network built on a Few-Shot Learning architecture, which includes a tailored feature extractor, task interpolation, relational embedding, and a bi-level routing attention mechanism. The Few-Shot Learning paradigm enables our model to rapidly adapt to unseen fine-grained endoscopic image patterns, and the task interpolation augments the insufficient images artificially from varied instrument viewpoints. Our relational embedding approach discerns critical intra-image features and captures inter-image transitions between consecutive endoscopic frames, overcoming the limitations of Convolutional Neural Networks (CNNs). The integration of a light-weight attention mechanism ensures a concentrated analysis of pertinent image regions. By training on diverse datasets, the model’s generalizability and robustness are notably improved for handling endoscopic images. Evaluated on Kvasir dataset, our model demonstrated superior performance, achieving an accuracy of 90.1\%, precision of 0.845, recall of 0.942, and an F1 score of 0.891. This surpasses current state-of-the-art methods, presenting a promising solution to the challenges of invasive colonoscopy by optimizing CRC detection through advanced image analysis.

arxiv情報

著者 Xinliu Zhong,Leo Hwa Liang,Angela S. Koh,Yeo Si Yong
発行日 2025-05-30 16:54:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Lightweight Relational Embedding in Task-Interpolated Few-Shot Networks for Enhanced Gastrointestinal Disease Classification はコメントを受け付けていません

TC-GS: A Faster Gaussian Splatting Module Utilizing Tensor Cores

要約

3Dガウススプラッティング(3DG)は、ガウスブレンドがレンダリングパイプラインの時間コストを支配するガウスプリミティブをラスタ化することによりピクセルをレンダリングします。
このペーパーでは、3DGのテンソルコア(TCU)の適用性を拡大するアルゴリズムに依存しないユニバーサルモジュールであるTC-GSを提案し、既存の3DGS最適化フレームワークへの実質的なスピードアップとシームレスな統合につながります。
主要な革新は、アルファ計算をマトリックスの乗算にマッピングすることにあり、既存の3DGS実装でアイドルTCUを完全に利用しています。
TC-GSは、ガウス圧縮や冗長性排出アルゴリズムなどのレンダリングパイプラインデザインと密接に結合した、既存の最高層加速アルゴリズムのプラグアンドプレイアクセラレーションを提供します。
さらに、テンソルコアハーフエシジョン計算によって引き起こされるピクセル座標の二次項からの丸めエラーを緩和するために、グローバルからローカルへの座標変換を導入します。
広範な実験は、我々の方法が品質のレンダリングを維持しながら、既存のガウス加速アルゴリズムよりも2.18倍のスピードアップを提供し、合計5.6倍の加速度に達することを示しています。
このコードは現在、匿名\ href {https://github.com/tensorcore3dgs/3dgstensorcoreで入手できます}

要約(オリジナル)

3D Gaussian Splatting (3DGS) renders pixels by rasterizing Gaussian primitives, where conditional alpha-blending dominates the time cost in the rendering pipeline. This paper proposes TC-GS, an algorithm-independent universal module that expands Tensor Core (TCU) applicability for 3DGS, leading to substantial speedups and seamless integration into existing 3DGS optimization frameworks. The key innovation lies in mapping alpha computation to matrix multiplication, fully utilizing otherwise idle TCUs in existing 3DGS implementations. TC-GS provides plug-and-play acceleration for existing top-tier acceleration algorithms tightly coupled with rendering pipeline designs, like Gaussian compression and redundancy elimination algorithms. Additionally, we introduce a global-to-local coordinate transformation to mitigate rounding errors from quadratic terms of pixel coordinates caused by Tensor Core half-precision computation. Extensive experiments demonstrate that our method maintains rendering quality while providing an additional 2.18x speedup over existing Gaussian acceleration algorithms, thus reaching up to a total 5.6x acceleration. The code is currently available at anonymous \href{https://github.com/TensorCore3DGS/3DGSTensorCore}

arxiv情報

著者 Zimu Liao,Jifeng Ding,Rong Fu,Siwei Cui,Ruixuan Gong,Li Wang,Boni Hu,Yi Wang,Hengjie Li,XIngcheng Zhang,Hui Wang
発行日 2025-05-30 16:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC, cs.GR, D.1.3 | TC-GS: A Faster Gaussian Splatting Module Utilizing Tensor Cores はコメントを受け付けていません

Deep Augmentation: Dropout as Augmentation for Self-Supervised Learning

要約

ドロップアウトの機械学習における普及にもかかわらず、データ増強の形態としてのその有効性は引き続き標準化されていません。
2つの重要な質問に対処します。(i)拡張戦略としてドロップアウトが効果的になるのはいつですか?
(ii)これらの条件下でドロップアウトは独自に効果的ですか?
これらの質問を調査するために、ニューラルネットワークのターゲット層にドロップアウトまたはPCA変換を適用するネットワークおよびモダリティとモダリティと存在の方法であるディープ拡張を提案します。
NLP、コンピュータービジョン、グラフ学習の対照的な学習タスクに関する広範な実験により、レイヤー間でドロップアウトを均一に適用しても、パフォーマンスが一貫して改善されないことがわかります。
代わりに、ドロップアウトはより深い層で最も有益であることが証明されており、代替の増強(PCAなど)によって一致する可能性があります。
また、ドロップアウト機能を増強として効果的に確保するためには、ストップ勾配操作が重要であり、コントラストタスクから監視付きタスクに移行するときにパフォーマンスの傾向が反転することを示しています。
私たちの分析は、深い増強が、ラベル付きデータが存在しないために自己監視学習における顕著な問題である層間の共同適応を緩和するのに役立つことを示唆しています。
これらの洞察に基づいて、最適な増強層を選択する手順の概要を説明し、深い増強が従来の入力レベルの増強を上回ることができることを示します。
このシンプルでありながら強力なアプローチは、幅広いアーキテクチャとモダリティにシームレスに統合され、パフォーマンスと一般化の両方で顕著な利益をもたらします。

要約(オリジナル)

Despite dropout’s ubiquity in machine learning, its effectiveness as a form of data augmentation remains under-explored. We address two key questions: (i) When is dropout effective as an augmentation strategy? (ii) Is dropout uniquely effective under these conditions? To explore these questions, we propose Deep Augmentation, a network- and modality-agnostic method that applies dropout or PCA transformations to targeted layers in neural networks. Through extensive experiments on contrastive learning tasks in NLP, computer vision, and graph learning, we find that uniformly applying dropout across layers does not consistently improve performance. Instead, dropout proves most beneficial in deeper layers and can be matched by alternative augmentations (e.g., PCA). We also show that a stop-gradient operation is critical for ensuring dropout functions effectively as an augmentation, and that performance trends invert when moving from contrastive tasks to supervised tasks. Our analysis suggests that Deep Augmentation helps mitigate inter-layer co-adaptation — a notable issue in self-supervised learning due to the absence of labeled data. Drawing on these insights, we outline a procedure for selecting the optimal augmentation layer and demonstrate that Deep Augmentation can outperform traditional input-level augmentations. This simple yet powerful approach can be seamlessly integrated into a wide range of architectures and modalities, yielding notable gains in both performance and generalization.

arxiv情報

著者 Rickard Brüel-Gabrielsson,Tongzhou Wang,Manel Baradad,Justin Solomon
発行日 2025-05-30 17:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Deep Augmentation: Dropout as Augmentation for Self-Supervised Learning はコメントを受け付けていません

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

要約

超音波は、グローバルなヘルスケアにとって重要なイメージングモダリティですが、オペレーター、ノイズ、解剖学的構造の画質が変化するため、その解釈は依然として困難です。
大規模なビジョン言語モデル(LVLMS)は、自然および医療ドメイン全体で印象的なマルチモーダル機能を実証していますが、超音波でのパフォーマンスはほとんど未踏のままです。
分類、検出、回帰、およびテキスト生成タスク全体で、超音波理解に関するLVLMSを評価する最初の包括的なベンチマークであるU2ベンチを紹介します。
U2ベンチ集約7,241の15の解剖学的領域にまたがるケースと、50の超音波アプリケーションシナリオにわたって、診断、ビュー認識、病変局在、臨床価値推定、レポート生成など、臨床的にインスピレーションを受けたタスクを定義します。
オープンソースとクローズドソースの両方の最先端のLVLMを評価します。
私たちの結果は、画像レベルの分類に関する強力なパフォーマンスを明らかにしていますが、空間的推論と臨床言語生成における持続的な課題があります。
U2ベンチは、医療超音波イメージングのユニークなマルチモーダルドメインでのLVLM研究を評価および加速するための厳密で統一されたテストベッドを確立します。

要約(オリジナル)

Ultrasound is a widely-used imaging modality critical to global healthcare, yet its interpretation remains challenging due to its varying image quality on operators, noises, and anatomical structures. Although large vision-language models (LVLMs) have demonstrated impressive multimodal capabilities across natural and medical domains, their performance on ultrasound remains largely unexplored. We introduce U2-BENCH, the first comprehensive benchmark to evaluate LVLMs on ultrasound understanding across classification, detection, regression, and text generation tasks. U2-BENCH aggregates 7,241 cases spanning 15 anatomical regions and defines 8 clinically inspired tasks, such as diagnosis, view recognition, lesion localization, clinical value estimation, and report generation, across 50 ultrasound application scenarios. We evaluate 20 state-of-the-art LVLMs, both open- and closed-source, general-purpose and medical-specific. Our results reveal strong performance on image-level classification, but persistent challenges in spatial reasoning and clinical language generation. U2-BENCH establishes a rigorous and unified testbed to assess and accelerate LVLM research in the uniquely multimodal domain of medical ultrasound imaging.

arxiv情報

著者 Anjie Le,Henan Liu,Yue Wang,Zhenyu Liu,Rongkun Zhu,Taohan Weng,Jinze Yu,Boyang Wang,Yalun Wu,Kaiwen Yan,Quanlin Sun,Meirui Jiang,Jialun Pei,Siya Liu,Haoyun Zheng,Zhoujun Li,Alison Noble,Jacques Souquet,Xiaoqing Guo,Manxi Lin,Hongcheng Guo
発行日 2025-05-30 17:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding はコメントを受け付けていません

Beyond Pretty Pictures: Combined Single- and Multi-Image Super-resolution for Sentinel-2 Images

要約

スーパー解像度の目的は、高周波の詳細を再構築することにより、衛星画像の解像度を増やすことを目的としています。
これは、Sentinel-2のような地球観測ミッションに特に関連性があり、頻繁に定期的に補償されています。
しかし、粗い解像度で。
そのピクセルのフットプリントは、家、通り、生垣などの小さな機能をキャプチャするには大きすぎます。
これに対処するために、シングルイメージとマルチイメージ技術の利点を組み合わせたハイブリッドスーパー解像度アーキテクチャであるSen4Xを提示します。
繰り返しのセンチネル-2の獲得からの時間的オーバーサンプリングと、高解像度のpl \ ‘eiades Neoデータから学習した以前のデータを組み合わせています。
そうすることで、Sen4xはSentinel-2画像を2.5 mの地上サンプリング距離にアップグレードします。
ベトナムのハノイにある都市の土地被覆分類に関する超解凍画像をテストします。
それらは、最先端の超解像度のベースラインよりも大幅なパフォーマンス改善につながることがわかりました。

要約(オリジナル)

Super-resolution aims to increase the resolution of satellite images by reconstructing high-frequency details, which go beyond na\’ive upsampling. This has particular relevance for Earth observation missions like Sentinel-2, which offer frequent, regular coverage at no cost; but at coarse resolution. Its pixel footprint is too large to capture small features like houses, streets, or hedge rows. To address this, we present SEN4X, a hybrid super-resolution architecture that combines the advantages of single-image and multi-image techniques. It combines temporal oversampling from repeated Sentinel-2 acquisitions with a learned prior from high-resolution Pl\’eiades Neo data. In doing so, SEN4X upgrades Sentinel-2 imagery to 2.5 m ground sampling distance. We test the super-resolved images on urban land-cover classification in Hanoi, Vietnam. We find that they lead to a significant performance improvement over state-of-the-art super-resolution baselines.

arxiv情報

著者 Aditya Retnanto,Son Le,Sebastian Mueller,Armin Leitner,Konrad Schindler,Yohan Iddawela,Michael Riffler
発行日 2025-05-30 17:02:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Beyond Pretty Pictures: Combined Single- and Multi-Image Super-resolution for Sentinel-2 Images はコメントを受け付けていません

Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape

要約

拡散変圧器(DIT)は、ビデオや画像などの高品質の視覚コンテンツを生成するためのデファクトモデルになっています。
巨大なボトルネックは、複雑さが解像度とビデオの長さとともに二次的にスケーリングする注意メカニズムです。
この負担を軽減するための論理的な方法の1つは、トークンまたはパッチのサブセットのみが計算に含まれるまばらな注意です。
ただし、既存の手法では、視覚的な品質を非常に高いスパースレベルで維持できず、無視できない計算オーバーヘッドが発生する可能性さえあります。
%この懸念に対処するために、我々は再計具を提案します。これは、注意メカニズム内の確率的正常化シフトを克服するために拡散モデルの時間的冗長性を活用することにより、視覚生成モデルの非常にまばらな注意を導きます。
具体的には、非常に高いスパース性レベルで完全な二次注意の視覚的品質を維持するために、以前のソフトマックス分布履歴に基づいて、再び再構成を再形成します。
CogvideoxやPixart DITSなどのT2V/T2Iモデルの%実験結果は、推論中に再調整がトークンの3.1 \%を必要とし、FastDitatn、まばらなビデオゲン、ミニファレンスなどの現代的な方法を上回ることを示しています。
さらに、レイテンシを測定して、私たちの方法が、無視できるオーバーヘッドコストでH100 GPUで45%を超えるエンドツーエンド%および92 \%を超える自己関節レイテンシ削減を達成できることを示します。
ここでオンラインで入手可能なコード:\ href {https://github.com/cccrrrccc/re-ttention} {https://github.com/cccrrrccc/re-ttention}

要約(オリジナル)

Diffusion Transformers (DiT) have become the de-facto model for generating high-quality visual content like videos and images. A huge bottleneck is the attention mechanism where complexity scales quadratically with resolution and video length. One logical way to lessen this burden is sparse attention, where only a subset of tokens or patches are included in the calculation. However, existing techniques fail to preserve visual quality at extremely high sparsity levels and might even incur non-negligible compute overheads. % To address this concern, we propose Re-ttention, which implements very high sparse attention for visual generation models by leveraging the temporal redundancy of Diffusion Models to overcome the probabilistic normalization shift within the attention mechanism. Specifically, Re-ttention reshapes attention scores based on the prior softmax distribution history in order to preserve the visual quality of the full quadratic attention at very high sparsity levels. % Experimental results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate that Re-ttention requires as few as 3.1\% of the tokens during inference, outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and MInference. Further, we measure latency to show that our method can attain over 45\% end-to-end % and over 92\% self-attention latency reduction on an H100 GPU at negligible overhead cost. Code available online here: \href{https://github.com/cccrrrccc/Re-ttention}{https://github.com/cccrrrccc/Re-ttention}

arxiv情報

著者 Ruichen Chen,Keith G. Mills,Liyao Jiang,Chao Gao,Di Niu
発行日 2025-05-30 17:09:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape はコメントを受け付けていません

$\textit{Revelio}$: Interpreting and leveraging semantic information in diffusion models

要約

$ \ textit {how} $リッチな視覚セマンティック情報は、さまざまなレイヤー内で表され、異なる拡散アーキテクチャのタイムステップを除去します。
K-SPARSEオートエンコーダー(K-SAE)を活用することにより、モノセミックな解釈可能な機能を明らかにします。
オフシェルフ拡散モデルの機能に軽量分類器を使用した転送学習を通じて、機械的解釈を実証します。
4ドルのデータセットでは、表現学習のための拡散機能の有効性を示します。
さまざまな拡散アーキテクチャ、トレーニング前のデータセット、および言語モデルの条件付けが、視覚表現の粒度、帰納的バイアス、および転送学習能力にどのように影響するかについての詳細な分析を提供します。
私たちの仕事は、ブラックボックス拡散モデルの解釈可能性を深めるための重要なステップです。
コードと視覚化は、https://github.com/revelio-diffusion/revelioで入手できます

要約(オリジナル)

We study $\textit{how}$ rich visual semantic information is represented within various layers and denoising timesteps of different diffusion architectures. We uncover monosemantic interpretable features by leveraging k-sparse autoencoders (k-SAE). We substantiate our mechanistic interpretations via transfer learning using light-weight classifiers on off-the-shelf diffusion models’ features. On $4$ datasets, we demonstrate the effectiveness of diffusion features for representation learning. We provide an in-depth analysis of how different diffusion architectures, pre-training datasets, and language model conditioning impacts visual representation granularity, inductive biases, and transfer learning capabilities. Our work is a critical step towards deepening interpretability of black-box diffusion models. Code and visualizations available at: https://github.com/revelio-diffusion/revelio

arxiv情報

著者 Dahye Kim,Xavier Thomas,Deepti Ghadiyaram
発行日 2025-05-30 17:11:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | $\textit{Revelio}$: Interpreting and leveraging semantic information in diffusion models はコメントを受け付けていません

CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental Learning

要約

クラスインクリメンテルラーニング(CIL)は、以前に学んだクラスの知識を保持しながら、新しいクラスを順次学習することを目指しています。
最近、パラメーター効率の高い微調整(PEFT)と組み合わせた事前訓練モデル(PTM)は、以前のタスクからの例を必要とせずに、リハーサルのないCILで顕著なパフォーマンスを示しています。
ただし、軽量の学習可能なモジュールをCIL用のPTMに組み込んだ既存のアダプターベースのメソッドは、新しいタスクごとに新しいアダプターを作成し、パラメーター冗長性とタスク全体で共有知識を活用できないことにつながります。
この作業では、継続的な低ランク適応(CL-LORA)を提案します。これは、クロスタスクの知識と\ textBF {タスク固有のアダプター}を学習するために\ textBf {task-sharedアダプター}を組み合わせた新しいデュアルアダプターアーキテクチャを導入し、各新しいタスクのユニークな機能をキャプチャします。
具体的には、共有アダプターはランダムな直交行列を利用し、勾配の再割り当てで知識の蒸留を活用して、本質的な共有知識を維持します。
さらに、モデルの可塑性を維持しながら、タスク間干渉を緩和するタスク固有のアダプターに学習可能なブロックごとの重みを導入します。
CL-LORAは、トレーニングと推論の計算を減らして複数のベンチマークで有望なパフォーマンスを達成し、事前に訓練されたモデルを使用した継続的な学習のためのより効率的でスケーラブルなパラダイムを確立することを実証します。

要約(オリジナル)

Class-Incremental Learning (CIL) aims to learn new classes sequentially while retaining the knowledge of previously learned classes. Recently, pre-trained models (PTMs) combined with parameter-efficient fine-tuning (PEFT) have shown remarkable performance in rehearsal-free CIL without requiring exemplars from previous tasks. However, existing adapter-based methods, which incorporate lightweight learnable modules into PTMs for CIL, create new adapters for each new task, leading to both parameter redundancy and failure to leverage shared knowledge across tasks. In this work, we propose ContinuaL Low-Rank Adaptation (CL-LoRA), which introduces a novel dual-adapter architecture combining \textbf{task-shared adapters} to learn cross-task knowledge and \textbf{task-specific adapters} to capture unique features of each new task. Specifically, the shared adapters utilize random orthogonal matrices and leverage knowledge distillation with gradient reassignment to preserve essential shared knowledge. In addition, we introduce learnable block-wise weights for task-specific adapters, which mitigate inter-task interference while maintaining the model’s plasticity. We demonstrate CL-LoRA consistently achieves promising performance under multiple benchmarks with reduced training and inference computation, establishing a more efficient and scalable paradigm for continual learning with pre-trained models.

arxiv情報

著者 Jiangpeng He,Zhihao Duan,Fengqing Zhu
発行日 2025-05-30 17:19:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental Learning はコメントを受け付けていません

Bi-Manual Joint Camera Calibration and Scene Representation

要約

ロボット操作、特に両操作では、複数のロボットマニピュレーターに複数のカメラをセットアップする必要があることがよくあります。
ロボットマニピュレーターが動きを生成したり、環境の表現を構築する前に、ロボットに硬く取り付けられたカメラを調整する必要があります。
カメラのキャリブレーションは、一連の画像を収集することを含む扱いにくいプロセスであり、それぞれが事前に決定されたマーカーをキャプチャします。
この作業では、二マニュアルジョイントキャリブレーションと表現フレームワーク(BI-JCR)を紹介します。
BI-JCRは、それぞれが取り付けられた複数のロボットマニピュレーターを使用して、キャリブレーションマーカーの画像の撮影を回避できます。
密なマーカーフリーマルチビューの対応のために3Dファンデーションモデルを活用することにより、BI-JCRは次のように推定します。
両方のマニピュレーターでカメラでキャプチャされた画像から共同で構築された表現は、共通の座標フレームに存在し、衝突チェックとセマンティックセグメンテーションをサポートして、下流の両段階調整タスクを促進します。
さまざまな卓上環境でのBI-JCRの堅牢性を経験的に評価し、さまざまな下流タスクでの適用性を実証します。

要約(オリジナル)

Robot manipulation, especially bimanual manipulation, often requires setting up multiple cameras on multiple robot manipulators. Before robot manipulators can generate motion or even build representations of their environments, the cameras rigidly mounted to the robot need to be calibrated. Camera calibration is a cumbersome process involving collecting a set of images, with each capturing a pre-determined marker. In this work, we introduce the Bi-Manual Joint Calibration and Representation Framework (Bi-JCR). Bi-JCR enables multiple robot manipulators, each with cameras mounted, to circumvent taking images of calibration markers. By leveraging 3D foundation models for dense, marker-free multi-view correspondence, Bi-JCR jointly estimates: (i) the extrinsic transformation from each camera to its end-effector, (ii) the inter-arm relative poses between manipulators, and (iii) a unified, scale-consistent 3D representation of the shared workspace, all from the same captured RGB image sets. The representation, jointly constructed from images captured by cameras on both manipulators, lives in a common coordinate frame and supports collision checking and semantic segmentation to facilitate downstream bimanual coordination tasks. We empirically evaluate the robustness of Bi-JCR on a variety of tabletop environments, and demonstrate its applicability on a variety of downstream tasks.

arxiv情報

著者 Haozhan Tang,Tianyi Zhang,Matthew Johnson-Roberson,Weiming Zhi
発行日 2025-05-30 17:22:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Bi-Manual Joint Camera Calibration and Scene Representation はコメントを受け付けていません

Segmenting France Across Four Centuries

要約

歴史的地図は、衛星またはリモートセンシング技術が存在する前に、過去数世紀にわたって領土の進化に非常に貴重な視点を提供します。
深い学習方法は、履歴マップのセグメント化に有望な結果を示していますが、一般に利用可能なデータセットは通常、単一のマップタイプまたは期間に焦点を当て、広範で費用のかかる注釈が必要であり、全国的な長期分析には適していません。
この論文では、限られた注釈を備えた大規模で長期的な土地利用と土地被覆の進化を分析するために調整された履歴マップの新しいデータセットを紹介します。
メトロポリタンフランス(548,305 km^2)にまたがるデータセットには、18世紀、19世紀、20世紀の3つのマップコレクションが含まれています。
包括的なモダンラベルと、18世紀と19世紀のマップで手動で注釈された履歴ラベルの22,878 km^2の両方を提供しています。
データセットは、セグメンテーションタスクの複雑さを示しており、文体的な矛盾、解釈的なあいまいさ、および大幅な景観の変化を特徴としています(たとえば、森林を支持して湿地が消えています)。
3つのアプローチをベンチマークすることにより、これらの課題の難しさを評価します。履歴ラベルで訓練された完全に監視されたモデルと、最新の注釈のみに依存する2つの弱い監視モデルです。
後者は、最新のラベルを直接使用するか、最初に画像間翻訳を実行して、歴史的地図と現代の地図の間の文体的なギャップに対処します。
最後に、これらの方法が長期的な環境監視をサポートする方法について説明し、何世紀にもわたる景観変換に関する洞察を提供します。
当社の公式プロジェクトリポジトリは、https://github.com/archiel19/frax4.gitで公開されています。

要約(オリジナル)

Historical maps offer an invaluable perspective into territory evolution across past centuries–long before satellite or remote sensing technologies existed. Deep learning methods have shown promising results in segmenting historical maps, but publicly available datasets typically focus on a single map type or period, require extensive and costly annotations, and are not suited for nationwide, long-term analyses. In this paper, we introduce a new dataset of historical maps tailored for analyzing large-scale, long-term land use and land cover evolution with limited annotations. Spanning metropolitan France (548,305 km^2), our dataset contains three map collections from the 18th, 19th, and 20th centuries. We provide both comprehensive modern labels and 22,878 km^2 of manually annotated historical labels for the 18th and 19th century maps. Our dataset illustrates the complexity of the segmentation task, featuring stylistic inconsistencies, interpretive ambiguities, and significant landscape changes (e.g., marshlands disappearing in favor of forests). We assess the difficulty of these challenges by benchmarking three approaches: a fully-supervised model trained with historical labels, and two weakly-supervised models that rely only on modern annotations. The latter either use the modern labels directly or first perform image-to-image translation to address the stylistic gap between historical and contemporary maps. Finally, we discuss how these methods can support long-term environment monitoring, offering insights into centuries of landscape transformation. Our official project repository is publicly available at https://github.com/Archiel19/FRAx4.git.

arxiv情報

著者 Marta López-Rauhut,Hongyu Zhou,Mathieu Aubry,Loic Landrieu
発行日 2025-05-30 17:26:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Segmenting France Across Four Centuries はコメントを受け付けていません