Enhanced Feature-based Image Stitching for Endoscopic Videos in Pediatric Eosinophilic Esophagitis

要約

ビデオ内視鏡​​検査は、胃腸疾患の調査における大きな進歩を表しています。
内視鏡ビデオのレビューでは、多くの場合、頻繁な調整と再配向が含まれて、完全なビューをつなぎ合わせます。これは、時間がかかり、エラーが発生しやすくなります。
画像ステッチテクニックは、調査した領域の継続的かつ完全な視覚化を提供することにより、この問題に対処します。
ただし、内視鏡画像、特に食道の画像は、独自の課題を提示しています。
滑らかな表面、明確な特徴点の欠如、および非硬膜の向きは、ステッチプロセスを複雑にし、これらのタイプの画像に対して従来の機能ベースの方法を効果的にしばしばレンダリングします。
この論文では、高度な計算技術を通じて内視鏡画像ステッチを強化するために設計された新しい前処理パイプラインを提案します。
私たちのアプローチは、4つのキーステップをフォローすることにより、内視鏡ビデオデータを連続2D画像に変換します。(1)キーフレーム選択、(2)歪みを修正するための画像回転調整、(3)極座標変換を使用して平らな画像を生成する表面アンラッピング、(4
)フィーチャポイントマッチングは、フィーチャ検出を改善するための適応ヒストグラム均等化によって強化されました。
有効な機能ポイントマッチペアの評価を通じて、ステッチの品質を評価します。
20個の小児内視鏡検査ビデオで実施された実験は、この方法が従来の技術と比較して画像のアライメントとステッチの品質を大幅に改善し、より効果的なパノラマ画像作成のための堅牢な基盤を築くことを示しています。

要約(オリジナル)

Video endoscopy represents a major advance in the investigation of gastrointestinal diseases. Reviewing endoscopy videos often involves frequent adjustments and reorientations to piece together a complete view, which can be both time-consuming and prone to errors. Image stitching techniques address this issue by providing a continuous and complete visualization of the examined area. However, endoscopic images, particularly those of the esophagus, present unique challenges. The smooth surface, lack of distinct feature points, and non-horizontal orientation complicate the stitching process, rendering traditional feature-based methods often ineffective for these types of images. In this paper, we propose a novel preprocessing pipeline designed to enhance endoscopic image stitching through advanced computational techniques. Our approach converts endoscopic video data into continuous 2D images by following four key steps: (1) keyframe selection, (2) image rotation adjustment to correct distortions, (3) surface unwrapping using polar coordinate transformation to generate a flat image, and (4) feature point matching enhanced by Adaptive Histogram Equalization for improved feature detection. We evaluate stitching quality through the assessment of valid feature point match pairs. Experiments conducted on 20 pediatric endoscopy videos demonstrate that our method significantly improves image alignment and stitching quality compared to traditional techniques, laying a robust foundation for more effective panoramic image creation.

arxiv情報

著者 Juming Xiong,Muyang Li,Ruining Deng,Tianyuan Yao,Regina N Tyree,Girish Hiremath,Yuankai Huo
発行日 2025-02-06 16:47:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhanced Feature-based Image Stitching for Endoscopic Videos in Pediatric Eosinophilic Esophagitis はコメントを受け付けていません

Éclair — Extracting Content and Layout with Integrated Reading Order for Documents

要約

光学文字認識(OCR)テクノロジーは、ドキュメントの画像からテキストを抽出し、効率的なデジタル化とデータの検索を促進するために広く使用されています。
ただし、複雑なドキュメントを扱う場合、テキストを抽出するだけでは不十分です。
そのようなドキュメントを完全に理解するには、複数のページにわたる複数のブロックと列のフォーマット、式、テーブル、読み取り順序など、その構造を理解する必要があります。
この包括的な理解は、検索、ドキュメントの質問応答、大規模な言語モデル(LLMS)およびビジョン言語モデル(VLM)をトレーニングするためのデータキュレーションなどの下流のタスクにとって重要です。
これに対処するために、幅広いドキュメントタイプを処理するために特別に設計された一般的なテキスト抽出ツールである\ ‘Eclairを紹介します。
画像が与えられた場合、\ ‘Eclairは、境界ボックスと対応するセマンティッククラスとともに、フォーマットされたテキストを読み取り順序で抽出できます。
これらの新しい能力を徹底的に評価するために、ドキュメントレベルのOCRおよびセマンティック分類のために、多様な人間が注目したベンチマークを紹介します。
\ ‘Eclairは、このベンチマークで最先端の精度を達成し、主要なメトリック全体で他の方法を上回ります。
さらに、確立されたベンチマークで\ ‘eclairを評価し、いくつかの評価基準にわたってその汎用性と強度を示します。

要約(オリジナル)

Optical Character Recognition (OCR) technology is widely used to extract text from images of documents, facilitating efficient digitization and data retrieval. However, merely extracting text is insufficient when dealing with complex documents. Fully comprehending such documents requires an understanding of their structure — including formatting, formulas, tables, and the reading order of multiple blocks and columns across multiple pages — as well as semantic information for detecting elements like footnotes and image captions. This comprehensive understanding is crucial for downstream tasks such as retrieval, document question answering, and data curation for training Large Language Models (LLMs) and Vision Language Models (VLMs). To address this, we introduce \’Eclair, a general-purpose text-extraction tool specifically designed to process a wide range of document types. Given an image, \’Eclair is able to extract formatted text in reading order, along with bounding boxes and their corresponding semantic classes. To thoroughly evaluate these novel capabilities, we introduce our diverse human-annotated benchmark for document-level OCR and semantic classification. \’Eclair achieves state-of-the-art accuracy on this benchmark, outperforming other methods across key metrics. Additionally, we evaluate \’Eclair on established benchmarks, demonstrating its versatility and strength across several evaluation standards.

arxiv情報

著者 Ilia Karmanov,Amala Sanjay Deshmukh,Lukas Voegtle,Philipp Fischer,Kateryna Chumachenko,Timo Roman,Jarno Seppänen,Jupinder Parmar,Joseph Jennings,Andrew Tao,Karan Sapra
発行日 2025-02-06 17:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Éclair — Extracting Content and Layout with Integrated Reading Order for Documents はコメントを受け付けていません

Keep It Light! Simplifying Image Clustering Via Text-Free Adapters

要約

多くの競争力のあるクラスタリングパイプラインには、マルチモーダル設計があり、大規模な言語モデル(LLM)またはその他のテキストエンコーダーを活用し、テキストイメージペアがあり、実際のダウンストリームアプリケーションでは利用できないことがよくあります。
さらに、このようなフレームワークは一般にトレーニングを複雑であり、実質的な計算リソースを必要とし、広範囲にわたる採用が困難になります。
この作業では、深いクラスタリングでは、より複雑な最先端の方法を備えた競争力のあるパフォーマンスを、テキストなしで高度に簡素化されたトレーニングパイプラインを使用して実現できることを示しています。
特に、事前に訓練されたモデル(SCP)を介した単純なクラスタリングである私たちのアプローチは、事前に訓練されたビジョンモデルの特徴表現と正のデータペアを活用しながら、小さなクラスターヘッドのみを訓練します。
CIFAR-10、CIFAR-20、CIFAR-100、STL-10、Imagenet-10、およびImagenet-Dogsを含むベンチマークデータセットでの実験は、SCPが非常に競争力のあるパフォーマンスを達成することを示しています。
さらに、少なくとも理想的な条件下では、視覚の強力なクラスタリングパフォーマンスを達成するために、追加のテキストベースの埋め込みが必要ない理由を説明する理論的結果を提供します。

要約(オリジナル)

Many competitive clustering pipelines have a multi-modal design, leveraging large language models (LLMs) or other text encoders, and text-image pairs, which are often unavailable in real-world downstream applications. Additionally, such frameworks are generally complicated to train and require substantial computational resources, making widespread adoption challenging. In this work, we show that in deep clustering, competitive performance with more complex state-of-the-art methods can be achieved using a text-free and highly simplified training pipeline. In particular, our approach, Simple Clustering via Pre-trained models (SCP), trains only a small cluster head while leveraging pre-trained vision model feature representations and positive data pairs. Experiments on benchmark datasets including CIFAR-10, CIFAR-20, CIFAR-100, STL-10, ImageNet-10, and ImageNet-Dogs, demonstrate that SCP achieves highly competitive performance. Furthermore, we provide a theoretical result explaining why, at least under ideal conditions, additional text-based embeddings may not be necessary to achieve strong clustering performance in vision.

arxiv情報

著者 Yicen Li,Haitz Sáez de Ocáriz Borde,Anastasis Kratsios,Paul D. McNicholas
発行日 2025-02-06 17:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, stat.CO, stat.ML | Keep It Light! Simplifying Image Clustering Via Text-Free Adapters はコメントを受け付けていません

VideoSAM: A Large Vision Foundation Model for High-Speed Video Segmentation

要約

高速ビデオ(HSV)セグメンテーションは、熱伝達などの科学的および産業用途で動的な物理プロセスを分析するために不可欠です。
u-netのような既存のモデルは、一般化と闘い、複雑なバブル層を正確にセグメント化します。
フェーズ検出のために多様なHSVデータセットで微調整されたセグメントAnything Model(SAM)の専門的な適応であるVideoSamを提示します。
多様な実験を通じて、VideoSAMは、複雑なセグメンテーションタスクでU-Netを大幅に上回る、水、FC-72、窒素、およびArgonの4つの流体環境で優れた性能を示しています。
VideoSAMの導入に加えて、位相検出用に設計されたオープンソースHSVセグメンテーションデータセットを提供し、このドメインでの将来の研究を可能にします。
私たちの調査結果は、堅牢で正確なHSVセグメンテーションに新しい標準を設定するVideosamの可能性を強調しています。
この調査で使用されているコードとデータセットは、https://github.com/chikap421/videosamでオンラインで入手できます。

要約(オリジナル)

High-speed video (HSV) segmentation is essential for analyzing dynamic physical processes in scientific and industrial applications, such as boiling heat transfer. Existing models like U-Net struggle with generalization and accurately segmenting complex bubble formations. We present VideoSAM, a specialized adaptation of the Segment Anything Model (SAM), fine-tuned on a diverse HSV dataset for phase detection. Through diverse experiments, VideoSAM demonstrates superior performance across four fluid environments — Water, FC-72, Nitrogen, and Argon — significantly outperforming U-Net in complex segmentation tasks. In addition to introducing VideoSAM, we contribute an open-source HSV segmentation dataset designed for phase detection, enabling future research in this domain. Our findings underscore VideoSAM’s potential to set new standards in robust and accurate HSV segmentation. The code and dataset used in this study are available online at https://github.com/chikap421/videosam.

arxiv情報

著者 Chika Maduabuchi,Ericmoore Jossou,Matteo Bucci
発行日 2025-02-06 17:34:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | VideoSAM: A Large Vision Foundation Model for High-Speed Video Segmentation はコメントを受け付けていません

An object detection approach for lane change and overtake detection from motion profiles

要約

艦隊管理とドライバーの監視のアプリケーションドメインでは、保存および分析された情報の量を最小限に抑えながら、Dashcamの映像から関連する運転イベントやアクティビティを取得することは非常に困難です。
この論文では、モーションプロファイルに適用された新しいオブジェクト検出アプローチで、追い越しおよび車線の変更操作の識別に対処します。これは、ビデオ映像を単一の画像に駆動するコンパクトな表現です。
モデルをトレーニングおよびテストするために、エゴベヒクルによって追い越しおよび車線変更操作で手動でラベル付けされた、Dashcamビデオの異種セットから得られたモーションプロファイル画像の内部データセットを作成しました。
標準的なオブジェクト検出アプローチに加えて、座標進化層を含めることにより、MAPとF1スコアの観点からモデルのパフォーマンスがさらに向上し、文献の他のベースラインと比較した場合、最先端のパフォーマンスが得られます。
提案されたソリューションの非常に低い計算要件により、デバイスでの実行に特に適しています。

要約(オリジナル)

In the application domain of fleet management and driver monitoring, it is very challenging to obtain relevant driving events and activities from dashcam footage while minimizing the amount of information stored and analyzed. In this paper, we address the identification of overtake and lane change maneuvers with a novel object detection approach applied to motion profiles, a compact representation of driving video footage into a single image. To train and test our model we created an internal dataset of motion profile images obtained from a heterogeneous set of dashcam videos, manually labeled with overtake and lane change maneuvers by the ego-vehicle. In addition to a standard object-detection approach, we show how the inclusion of CoordConvolution layers further improves the model performance, in terms of mAP and F1 score, yielding state-of-the art performance when compared to other baselines from the literature. The extremely low computational requirements of the proposed solution make it especially suitable to run in device.

arxiv情報

著者 Andrea Benericetti,Niccolò Bellaccini,Henrique Piñeiro Monteagudo,Matteo Simoncini,Francesco Sambo
発行日 2025-02-06 17:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | An object detection approach for lane change and overtake detection from motion profiles はコメントを受け付けていません

Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion

要約

クリップのような事前に訓練されたマルチモーダルビジョン言語モデルは、さまざまなアプリケーションで既製で広く使用されています。
このホワイトペーパーでは、これらの強力なマルチモーダルモデルのテキストまたは画像エンコーダーを個別に悪用するという一般的な慣行が、画像からイメージからイメージの検索などのモーダル内タスクの非常に準最適であることを示しています。
これは本質的に、モーダル内の制約を強制しないクリップスタイルのモーダル間対照損失によるものであり、モーダル内の不整列と呼ばれるものにつながると主張します。
これを実証するために、補助データまたは追加の訓練されたアダプターを必要とせずに、入力モダリティから表現を補完的なモダリティにマッピングする2つの最適化ベースのモダリティ反転手法を活用します。
画像から画像へのイメージとテキストからテキストへの検索のモーダルタスクで、これらのタスクがモダンに近づくと、15を超えるデータセットのモーダル内ベースラインに関するパフォーマンスが大幅に向上することを経験的に示します。
さらに、ネイティブのインターモーダルタスク(たとえば、ゼロショット画像分類など)に近づくとモダンなパフォーマンスが低下し、調査結果がさらに検証されることを示しています。
最後に、トレーニング前の目標にモーダル内の用語を組み込むか、テキストと画像機能の埋め込みスペースの間のモダリティギャップを絞り込むことで、モーダル内の不整合を減らすのに役立つことを示します。
このコードは、https://github.com/miccunifi/cross-the-gapで公開されています。

要約(オリジナル)

Pre-trained multi-modal Vision-Language Models like CLIP are widely used off-the-shelf for a variety of applications. In this paper, we show that the common practice of individually exploiting the text or image encoders of these powerful multi-modal models is highly suboptimal for intra-modal tasks like image-to-image retrieval. We argue that this is inherently due to the CLIP-style inter-modal contrastive loss that does not enforce any intra-modal constraints, leading to what we call intra-modal misalignment. To demonstrate this, we leverage two optimization-based modality inversion techniques that map representations from their input modality to the complementary one without any need for auxiliary data or additional trained adapters. We empirically show that, in the intra-modal tasks of image-to-image and text-to-text retrieval, approaching these tasks inter-modally significantly improves performance with respect to intra-modal baselines on more than fifteen datasets. Additionally, we demonstrate that approaching a native inter-modal task (e.g. zero-shot image classification) intra-modally decreases performance, further validating our findings. Finally, we show that incorporating an intra-modal term in the pre-training objective or narrowing the modality gap between the text and image feature embedding spaces helps reduce the intra-modal misalignment. The code is publicly available at: https://github.com/miccunifi/Cross-the-Gap.

arxiv情報

著者 Marco Mistretta,Alberto Baldrati,Lorenzo Agnolucci,Marco Bertini,Andrew D. Bagdanov
発行日 2025-02-06 17:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion はコメントを受け付けていません

PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching

要約

マッピングは、モバイルロボットの自律的なナビゲーションを可能にする重要なタスクの1つです。
従来のマッピング方法密な幾何学マップ表現を出力します。
占有グリッド。これは、大きな環境をカバーする長時間のランで一貫性を保つのは簡単ではありません。
一方、ワークスペースのトポロジ構造をキャプチャすることにより、迅速なパス計画が可能になり、通常、匂い測定エラーの蓄積が発生しやすくなり、多くのメモリを消費しません。
このアイデアに続いて、このペーパーでは、グローバルメトリック座標に依存しないローカルに配置された場所のグラフを維持するトポロジマッピング方法であるPrism-Topomapを紹介します。
提案された方法には、場所のグラフにローカリゼーションとループ閉鎖のために、スキャンマッチングパイプラインと組み合わせた元の学習可能なマルチモーダル場所認識が含まれます。
後者はオンラインで更新され、ロボットは各タイムステップで適切なノードにローカライズされます。
私たちは、写真と現実的な環境の範囲と実際のロボットで提案されたアプローチの幅広い実験的評価を実施し、それを最新の芸術と比較します。
経験的評価の結果は、Prism-Topomapが競合他社が計算上で一貫して優れていることを確認し、高いマッピング品質を達成し、実際のロボットでうまく機能することを確認しています。
Prism-Topomapのコードはオープンソースであり、https://github.com/kirillmouraviev/prism-topomapで入手できます。

要約(オリジナル)

Mapping is one of the crucial tasks enabling autonomous navigation of a mobile robot. Conventional mapping methods output a dense geometric map representation, e.g. an occupancy grid, which is not trivial to keep consistent for prolonged runs covering large environments. Meanwhile, capturing the topological structure of the workspace enables fast path planning, is typically less prone to odometry error accumulation, and does not consume much memory. Following this idea, this paper introduces PRISM-TopoMap — a topological mapping method that maintains a graph of locally aligned locations not relying on global metric coordinates. The proposed method involves original learnable multimodal place recognition paired with the scan matching pipeline for localization and loop closure in the graph of locations. The latter is updated online, and the robot is localized in a proper node at each time step. We conduct a broad experimental evaluation of the suggested approach in a range of photo-realistic environments and on a real robot, and compare it to state of the art. The results of the empirical evaluation confirm that PRISM-Topomap consistently outperforms competitors computationally-wise, achieves high mapping quality and performs well on a real robot. The code of PRISM-Topomap is open-sourced and is available at: https://github.com/kirillMouraviev/prism-topomap.

arxiv情報

著者 Kirill Muravyev,Alexander Melekhin,Dmitry Yudin,Konstantin Yakovlev
発行日 2025-02-06 18:05:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.10 | PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching はコメントを受け付けていません

Point2RBox-v2: Rethinking Point-supervised Oriented Object Detection with Spatial Layout Among Instances

要約

指向性オブジェクト検出(OOD)に対する需要が急速に増加しているため、ポイントアノテーションからOODを学習するための弱く監視された検出器を含む最近の研究は、大きな注目を集めています。
この論文では、この挑戦​​的なタスク設定をインスタンス間のレイアウトとPoint2Rbox-V2を再考します。
コアには3つの原則があります:1)ガウスのオーバーラップ損失。
オブジェクトを2Dガウス分布として扱い、それらの重複を最小化することにより、各インスタンスの上限を学習します。
2)Voronoi流域損失。
Voronoi Tessellationの流域を介して各インスタンスの下限を学びます。
3)一貫性の損失。
入力画像に関する2つの出力セット間のサイズ/回転の変動とその拡張ビューを学習します。
いくつかの考案された技術によって補足されています。
エッジの損失とコピーペースト、検出器はさらに強化されます。私たちの最良の知識に合わせて、Point2RBox-V2は、ポイントスパイブ化されたOODを学習するためのインスタンスの空間レイアウトを探索する最初のアプローチです。
私たちのソリューションはエレガントで軽量ですが、特に密集したシーンで競争力のあるパフォーマンスを提供することが期待されています:DOTA/HRSC/FAIR1Mで62.61%/86.15%/34.71%。
コードはhttps://github.com/visionxlab/point2rbox-v2で入手できます。

要約(オリジナル)

With the rapidly increasing demand for oriented object detection (OOD), recent research involving weakly-supervised detectors for learning OOD from point annotations has gained great attention. In this paper, we rethink this challenging task setting with the layout among instances and present Point2RBox-v2. At the core are three principles: 1) Gaussian overlap loss. It learns an upper bound for each instance by treating objects as 2D Gaussian distributions and minimizing their overlap. 2) Voronoi watershed loss. It learns a lower bound for each instance through watershed on Voronoi tessellation. 3) Consistency loss. It learns the size/rotation variation between two output sets with respect to an input image and its augmented view. Supplemented by a few devised techniques, e.g. edge loss and copy-paste, the detector is further enhanced.To our best knowledge, Point2RBox-v2 is the first approach to explore the spatial layout among instances for learning point-supervised OOD. Our solution is elegant and lightweight, yet it is expected to give a competitive performance especially in densely packed scenes: 62.61%/86.15%/34.71% on DOTA/HRSC/FAIR1M. Code is available at https://github.com/VisionXLab/point2rbox-v2.

arxiv情報

著者 Yi Yu,Botao Ren,Peiyuan Zhang,Mingxin Liu,Junwei Luo,Shaofeng Zhang,Feipeng Da,Junchi Yan,Xue Yang
発行日 2025-02-06 18:07:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Point2RBox-v2: Rethinking Point-supervised Oriented Object Detection with Spatial Layout Among Instances はコメントを受け付けていません

Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model

要約

Interactive 3Dシミュレーションオブジェクトは、AR/VR、アニメーション、ロボット工学、没入型エクスペリエンス、高度な自動化において重要です。
ただし、これらの明確なオブジェクトを作成するには、広範な人間の努力と専門知識が必要であり、より広範なアプリケーションを制限します。
この課題を克服するために、テキスト、画像、ビデオを含む多くの入力モダリティから多様な複雑なオブジェクトの明確化を自動化するシステムであるArticulate-Anythingを提示します。
Articulate-Anythingは、Vision-Language Models(VLMS)を活用して、標準の3Dシミュレータで使用するために相互作用可能なデジタルツインにコンパイルできるコードを生成します。
当社のシステムは、メッシュ検索メカニズムを介して既存の3Dアセットデータセットを活用し、オブジェクト、自己修正エラーを明確にして堅牢な結果を達成するためのソリューションを繰り返し提案、評価し、洗練するアクタークライティックシステムを介して活用します。
定性的評価は、豊富な接地入力を活用することにより、複雑で曖昧なオブジェクトアフォーダンスを明確にする能力を明確に示しています。
標準のパートネットモビリティデータセットに関する広範な定量的実験では、事前の作業を実質的に上回り、8.7-11.6%から75%に成功率を上げ、最先端のパフォーマンスのために新しいバーを設定します。
さらに、建物内のビデオ入力から3Dアセットを生成することにより、システムのユーティリティをさらに紹介します。これは、基本的な選択と場所を超えるシミュレーションで微調整された操作タスクのロボットポリシーをトレーニングするために使用されます。
これらのポリシーは、実際のロボットシステムに転送されます。

要約(オリジナル)

Interactive 3D simulated objects are crucial in AR/VR, animations, and robotics, driving immersive experiences and advanced automation. However, creating these articulated objects requires extensive human effort and expertise, limiting their broader applications. To overcome this challenge, we present Articulate-Anything, a system that automates the articulation of diverse, complex objects from many input modalities, including text, images, and videos. Articulate-Anything leverages vision-language models (VLMs) to generate code that can be compiled into an interactable digital twin for use in standard 3D simulators. Our system exploits existing 3D asset datasets via a mesh retrieval mechanism, along with an actor-critic system that iteratively proposes, evaluates, and refines solutions for articulating the objects, self-correcting errors to achieve a robust outcome. Qualitative evaluations demonstrate Articulate-Anything’s capability to articulate complex and even ambiguous object affordances by leveraging rich grounded inputs. In extensive quantitative experiments on the standard PartNet-Mobility dataset, Articulate-Anything substantially outperforms prior work, increasing the success rate from 8.7-11.6% to 75% and setting a new bar for state-of-the-art performance. We further showcase the utility of our system by generating 3D assets from in-the-wild video inputs, which are then used to train robotic policies for fine-grained manipulation tasks in simulation that go beyond basic pick and place. These policies are then transferred to a real robotic system.

arxiv情報

著者 Long Le,Jason Xie,William Liang,Hung-Ju Wang,Yue Yang,Yecheng Jason Ma,Kyle Vedder,Arjun Krishna,Dinesh Jayaraman,Eric Eaton
発行日 2025-02-06 18:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model はコメントを受け付けていません

GCE-Pose: Global Context Enhancement for Category-level Object Pose Estimation

要約

モデルフリーのカテゴリレベルのポーズ推定における重要な課題は、特定のカテゴリ内のさまざまなインスタンスに一般化するコンテキストオブジェクト機能の抽出です。
最近のアプローチは、基礎機能を活用して、データからセマンティックおよびジオメトリのキューをキャプチャします。
ただし、これらのアプローチは部分的な可視性では失敗します。
これは、クラスプライアーを利用した機能抽出のための最初の完全に完全に総合的な戦略で克服します。
このホワイトペーパーでは、GCE-Poseを提示します。これは、カテゴリレベルのグローバルコンテキストを統合することにより、新しいインスタンスのポーズ推定を強化する方法です。
GCE-Poseは、提案されたセマンティックシェイプ再構成(SSR)モジュールでセマンティックシェイプ再構成を実行します。
目に見えない部分RGB-Dオブジェクトインスタンスを考えると、SSRモジュールは、学習した深い線形形状モデルを介してカテゴリ固有の3Dセマンティックプロトタイプを変形させることにより、インスタンスのグローバルジオメトリとセマンティクスを再構築します。
さらに、部分的なRGB-D観測と再構築されたグローバルコンテキストから機能を効果的に融合するグローバルコンテキスト強化(GCE)機能融合モジュールを導入します。
広範な実験では、GCE PoseがGCE-Poseの有効性がGCE Fusionモジュールの有効性と有効性を検証し、GCE-Poseが現実世界のデータセットHouseCat6DおよびNOCS-REAL275に挑戦する既存の方法を大幅に上回ることを実証します。
プロジェクトページは、https://colin-de.github.io/gce-pose/で入手できます。

要約(オリジナル)

A key challenge in model-free category-level pose estimation is the extraction of contextual object features that generalize across varying instances within a specific category. Recent approaches leverage foundational features to capture semantic and geometry cues from data. However, these approaches fail under partial visibility. We overcome this with a first-complete-then-aggregate strategy for feature extraction utilizing class priors. In this paper, we present GCE-Pose, a method that enhances pose estimation for novel instances by integrating category-level global context prior. GCE-Pose performs semantic shape reconstruction with a proposed Semantic Shape Reconstruction (SSR) module. Given an unseen partial RGB-D object instance, our SSR module reconstructs the instance’s global geometry and semantics by deforming category-specific 3D semantic prototypes through a learned deep Linear Shape Model. We further introduce a Global Context Enhanced (GCE) feature fusion module that effectively fuses features from partial RGB-D observations and the reconstructed global context. Extensive experiments validate the impact of our global context prior and the effectiveness of the GCE fusion module, demonstrating that GCE-Pose significantly outperforms existing methods on challenging real-world datasets HouseCat6D and NOCS-REAL275. Our project page is available at https://colin-de.github.io/GCE-Pose/.

arxiv情報

著者 Weihang Li,Hongli Xu,Junwen Huang,Hyunjun Jung,Peter KT Yu,Nassir Navab,Benjamin Busam
発行日 2025-02-06 18:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GCE-Pose: Global Context Enhancement for Category-level Object Pose Estimation はコメントを受け付けていません