ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos

要約

人間中心の3D世界の認識において、単一の単眼内の野生のビデオフィギュアからフォトリアリスティックなシーンと人間の再建を作成します。
最近のニューラルレンダリングの進歩により、全体的な人間のシーンの再構成が可能になりましたが、事前に調整されたカメラと人間のポーズ、およびトレーニング時間の日数が必要です。
この作業では、カメラトラッキング、人間のポーズ推定、人間のシーンの再構成をオンラインで実行するという新しい統一フレームワークを紹介します。
3Dガウスのスプラットティングは、人間とシーンのガウスプリミティブを効率的に学習するために利用されており、再構築ベースのカメラ追跡と人間のポーズ推定モジュールは、ホリスティックな理解と効果的なポーズと外観の解体を可能にするように設計されています。
具体的には、人間の変形モジュールを設計して、詳細を再構築し、分散型ポーズの一般化を忠実に強化します。
人間とシーンの間の空間的相関を正確に学ぶことを目指して、閉塞性のヒトシルエットレンダリングと単眼の幾何学的前症を紹介し、再構築品質をさらに向上させます。
EMDBおよびNeumanデータセットでの実験は、カメラの追跡、人間のポーズ推定、新しいビューの合成、ランタイムの既存の方法で優れたパフォーマンスまたは標準性能を示しています。
プロジェクトページはhttps://eth-ait.github.io/odhsrにあります。

要約(オリジナル)

Creating a photorealistic scene and human reconstruction from a single monocular in-the-wild video figures prominently in the perception of a human-centric 3D world. Recent neural rendering advances have enabled holistic human-scene reconstruction but require pre-calibrated camera and human poses, and days of training time. In this work, we introduce a novel unified framework that simultaneously performs camera tracking, human pose estimation and human-scene reconstruction in an online fashion. 3D Gaussian Splatting is utilized to learn Gaussian primitives for humans and scenes efficiently, and reconstruction-based camera tracking and human pose estimation modules are designed to enable holistic understanding and effective disentanglement of pose and appearance. Specifically, we design a human deformation module to reconstruct the details and enhance generalizability to out-of-distribution poses faithfully. Aiming to learn the spatial correlation between human and scene accurately, we introduce occlusion-aware human silhouette rendering and monocular geometric priors, which further improve reconstruction quality. Experiments on the EMDB and NeuMan datasets demonstrate superior or on-par performance with existing methods in camera tracking, human pose estimation, novel view synthesis and runtime. Our project page is at https://eth-ait.github.io/ODHSR.

arxiv情報

著者 Zetong Zhang,Manuel kaufmann,Lixin Xue,Jie Song,Martin R. Oswald
発行日 2025-04-17 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.5 | ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos はコメントを受け付けていません

Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling

要約

ビジョン言語モデル(VLM)は視覚的な理解に優れていますが、視覚的な幻覚に苦しむことが多く、存在しないオブジェクト、アクション、または概念の説明を生成し、安全性が批判的なアプリケーションに重大なリスクをもたらします。
既存の幻覚緩和方法は、通常、2つのパラダイムのいずれかに従います。生成調整は、テキストを視覚入力に整列させるために動作をデコードすることと、外部モデルが出力を評価および修正する事後検証を変更します。
効果的ですが、生成調整方法はしばしばヒューリスティックに依存し、補正メカニズムを欠いていますが、事後検証は複雑であり、通常は複数のモデルを必要とし、それらを洗練するのではなく出力を拒否する傾向があります。
この作業では、幻覚を意識したトレーニングとフライの自己検証を統合する統合されたフレームワークであるReverseを紹介します。
1.3mを超える半合成サンプルを含む新しい幻覚検証データセットを活用することにより、新しい推論時間遡及的再サンプリング技術とともに、私たちのアプローチにより、VLMは生成中の幻覚を検出し、それらの幻覚を動的に修正することができます。
私たちの評価は、リバースが最先端の幻覚の削減を達成し、最高の既存の方法を椅子MSCOCOで最大12%、Haloquestで28%上回ることを示しています。
データセット、モデル、およびコードは、https://reverse-vlm.github.ioで入手できます。

要約(オリジナル)

Vision-Language Models (VLMs) excel at visual understanding but often suffer from visual hallucinations, where they generate descriptions of nonexistent objects, actions, or concepts, posing significant risks in safety-critical applications. Existing hallucination mitigation methods typically follow one of two paradigms: generation adjustment, which modifies decoding behavior to align text with visual inputs, and post-hoc verification, where external models assess and correct outputs. While effective, generation adjustment methods often rely on heuristics and lack correction mechanisms, while post-hoc verification is complicated, typically requiring multiple models and tending to reject outputs rather than refine them. In this work, we introduce REVERSE, a unified framework that integrates hallucination-aware training with on-the-fly self-verification. By leveraging a new hallucination-verification dataset containing over 1.3M semi-synthetic samples, along with a novel inference-time retrospective resampling technique, our approach enables VLMs to both detect hallucinations during generation and dynamically revise those hallucinations. Our evaluations show that REVERSE achieves state-of-the-art hallucination reduction, outperforming the best existing methods by up to 12% on CHAIR-MSCOCO and 28% on HaloQuest. Our dataset, model, and code are available at: https://reverse-vlm.github.io.

arxiv情報

著者 Tsung-Han Wu,Heekyung Lee,Jiaxin Ge,Joseph E. Gonzalez,Trevor Darrell,David M. Chan
発行日 2025-04-17 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling はコメントを受け付けていません

Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities

要約

状況に応じたコミュニケーションでの空間的表現は、スピーカーやリスナーが採用する参照のフレームによって異なるため、曖昧なコミュニケーションは曖昧です。
Vision言語モデル(VLM)による空間言語の理解と推論は注目を集めていますが、これらのモデルの潜在的なあいまいさは依然として推奨されていません。
この問題に対処するために、VLMSの空間推論能力を体系的に評価する評価プロトコルである一貫した多言語参照フレーム(Comfort)を提示します。
快適さを使用して、9つの最先端のVLMを評価します。
曖昧さを解決するための英語の慣習との整合性を示しているにもかかわらず、私たちの実験はVLMの重要な欠点を明らかにします。特に、モデルは堅牢性と一貫性が低いことを示します。
ビジョン言語モデルを人間の認知的直観に合わせるための努力が高まっているため、空間推論の曖昧な性質と異文化間の多様性により多くの注意を喚起します。

要約(オリジナル)

Spatial expressions in situated communication can be ambiguous, as their meanings vary depending on the frames of reference (FoR) adopted by speakers and listeners. While spatial language understanding and reasoning by vision-language models (VLMs) have gained increasing attention, potential ambiguities in these models are still under-explored. To address this issue, we present the COnsistent Multilingual Frame Of Reference Test (COMFORT), an evaluation protocol to systematically assess the spatial reasoning capabilities of VLMs. We evaluate nine state-of-the-art VLMs using COMFORT. Despite showing some alignment with English conventions in resolving ambiguities, our experiments reveal significant shortcomings of VLMs: notably, the models (1) exhibit poor robustness and consistency, (2) lack the flexibility to accommodate multiple FoRs, and (3) fail to adhere to language-specific or culture-specific conventions in cross-lingual tests, as English tends to dominate other languages. With a growing effort to align vision-language models with human cognitive intuitions, we call for more attention to the ambiguous nature and cross-cultural diversity of spatial reasoning.

arxiv情報

著者 Zheyuan Zhang,Fengyuan Hu,Jayjun Lee,Freda Shi,Parisa Kordjamshidi,Joyce Chai,Ziqiao Ma
発行日 2025-04-17 17:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities はコメントを受け付けていません

IMAGGarment-1: Fine-Grained Garment Generation for Controllable Fashion Design

要約

このホワイトペーパーでは、シルエット、色、ロゴの配置を正確に制御できる高忠実度の衣服の合成を可能にする、細粒衣服(FGG)フレームワークであるImaggarment-1を紹介します。
単一条件の入力に限定された既存の方法とは異なり、Imaggarment-1は、パーソナライズされたファッションデザインおよびデジタルアパレルアプリケーションにおける多条件制御性の課題に対処します。
具体的には、Imaggarment-1は2段階のトレーニング戦略を採用して、グローバルな外観とローカルの詳細を個別にモデル化しながら、エンドツーエンドの推論を通じて統一された制御可能な生成を可能にします。
最初の段階では、混合注意モジュールとカラーアダプターを使用して、シルエットと色を共同でコードするグローバルな外観モデルを提案します。
第2段階では、ユーザー定義のロゴと空間的制約を注入するための適応的な外観認識モジュールを備えたローカルエンハンスメントモデルを提示し、正確な配置と視覚的な一貫性を可能にします。
このタスクをサポートするために、スケッチ、カラー参照、ロゴの配置、テキストプロンプトなどのマルチレベルの設計条件と組み合わせた180Kを超える衣服サンプルを含む大規模なデータセットであるGarmentBenchをリリースします。
広範な実験は、我々の方法が既存のベースラインよりも優れていることを示しており、優れた構造安定性、色の忠実度、ローカル制御性のパフォーマンスを達成しています。
コードとモデルは、https://github.com/muzishen/imaggarment-1で入手できます。

要約(オリジナル)

This paper presents IMAGGarment-1, a fine-grained garment generation (FGG) framework that enables high-fidelity garment synthesis with precise control over silhouette, color, and logo placement. Unlike existing methods that are limited to single-condition inputs, IMAGGarment-1 addresses the challenges of multi-conditional controllability in personalized fashion design and digital apparel applications. Specifically, IMAGGarment-1 employs a two-stage training strategy to separately model global appearance and local details, while enabling unified and controllable generation through end-to-end inference. In the first stage, we propose a global appearance model that jointly encodes silhouette and color using a mixed attention module and a color adapter. In the second stage, we present a local enhancement model with an adaptive appearance-aware module to inject user-defined logos and spatial constraints, enabling accurate placement and visual consistency. To support this task, we release GarmentBench, a large-scale dataset comprising over 180K garment samples paired with multi-level design conditions, including sketches, color references, logo placements, and textual prompts. Extensive experiments demonstrate that our method outperforms existing baselines, achieving superior structural stability, color fidelity, and local controllability performance. The code and model are available at https://github.com/muzishen/IMAGGarment-1.

arxiv情報

著者 Fei Shen,Jian Yu,Cong Wang,Xin Jiang,Xiaoyu Du,Jinhui Tang
発行日 2025-04-17 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IMAGGarment-1: Fine-Grained Garment Generation for Controllable Fashion Design はコメントを受け付けていません

Single-Shot Shape and Reflectance with Spatial Polarization Multiplexing

要約

単一の偏光画像からオブジェクトの形状と反射率を再構築するための空間分極マルチプレックス(SPM)を提案し、動的表面回復への応用を実証します。
シングルパターン構造化された光は、シングルショット形状の再構成を可能にしますが、インシデント光の角度サンプリングと予測パターンの絡み合いと表面色のテクスチャの絡み合いのために、反射率は回復するのが難しいです。
AOLP値を量子化することにより、形状再構成のために堅牢かつ一意に解読できる空間的に多重化された分極パターンを設計します。
同時に、私たちの空間的倍率は、BRDF推定のために鏡面領域とびまん性反射を分離する局所領域内で異なる偏光光を投影することにより、線形偏光のシングルショットエリプソメトリーを可能にします。
制約されたde bruijnシーケンスを使用して、この空間偏光多重化を達成します。
強度と色の単一パターン構造光とは異なり、偏光パターンは肉眼では見えず、正確な外観モデリングや人との相互作用に不可欠な自然な表面外観を保持します。
実際のデータに関する方法を実験的に検証します。
結果は、私たちの方法が、シングルショットの偏光画像から形状、ミューラーマトリックス、およびBRDFを回復できることを示しています。
また、動的表面への方法の適用も実証します。

要約(オリジナル)

We propose spatial polarization multiplexing (SPM) for reconstructing object shape and reflectance from a single polarimetric image and demonstrate its application to dynamic surface recovery. Although single-pattern structured light enables single-shot shape reconstruction, the reflectance is challenging to recover due to the lack of angular sampling of incident light and the entanglement of the projected pattern and the surface color texture. We design a spatially multiplexed pattern of polarization that can be robustly and uniquely decoded for shape reconstruction by quantizing the AoLP values. At the same time, our spatial-multiplexing enables single-shot ellipsometry of linear polarization by projecting differently polarized light within a local region, which separates the specular and diffuse reflections for BRDF estimation. We achieve this spatial polarization multiplexing with a constrained de Bruijn sequence. Unlike single-pattern structured light with intensity and color, our polarization pattern is invisible to the naked eye and retains the natural surface appearance which is essential for accurate appearance modeling and also interaction with people. We experimentally validate our method on real data. The results show that our method can recover the shape, the Mueller matrix, and the BRDF from a single-shot polarimetric image. We also demonstrate the application of our method to dynamic surfaces.

arxiv情報

著者 Tomoki Ichikawa,Ryo Kawahara,Ko Nishino
発行日 2025-04-17 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Single-Shot Shape and Reflectance with Spatial Polarization Multiplexing はコメントを受け付けていません

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

要約

ビジョン言語モデルはコンピュータービジョンの研究に不可欠ですが、多くの高性能モデルは閉鎖されたままであり、データ、設計、トレーニングのレシピを不明瞭にしています。
研究コミュニティは、測定可能な科学的進歩を犠牲にして、ブラックボックスモデルの蒸留を使用してトレーニングデータにラベルを付け、強力なベンチマーク結果を達成することで対応しました。
ただし、教師モデルの詳細とそのデータソースを知らずに、科学的進歩は測定が困難なままです。
この論文では、画像とビデオの理解における透明な研究のための完全にオープンで再現可能なフレームワークで、知覚言語モデル(PLM)の構築を研究しています。
独自のモデルから蒸留せずに標準のトレーニングパイプラインを分析し、特に詳細なビデオ理解において、重要なデータギャップを特定するために大規模な合成データを調査します。
これらのギャップを橋渡しするために、2.8mの人間に標識されたファインのビデオ質問のペアと空間的に接地されたビデオキャプションのインスタンスをリリースします。
さらに、「what」、「where」、「 ‘when」、「and’ of ‘of’」を推論する能力に焦点を当てた挑戦的なビデオ理解タスクを評価するためのスイートであるPLM-videobenchを紹介します。
データ、トレーニングレシピ、コード、モデルを提供することにより、作業を完全に再現可能にします。

要約(オリジナル)

Vision-language models are integral to computer vision research, yet many high-performing models remain closed-source, obscuring their data, design and training recipe. The research community has responded by using distillation from black-box models to label training data, achieving strong benchmark results, at the cost of measurable scientific progress. However, without knowing the details of the teacher model and its data sources, scientific progress remains difficult to measure. In this paper, we study building a Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding. We analyze standard training pipelines without distillation from proprietary models and explore large-scale synthetic data to identify critical data gaps, particularly in detailed video understanding. To bridge these gaps, we release 2.8M human-labeled instances of fine-grained video question-answer pairs and spatio-temporally grounded video captions. Additionally, we introduce PLM-VideoBench, a suite for evaluating challenging video understanding tasks focusing on the ability to reason about ‘what’, ‘where’, ‘when’, and ‘how’ of a video. We make our work fully reproducible by providing data, training recipes, code & models.

arxiv情報

著者 Jang Hyun Cho,Andrea Madotto,Effrosyni Mavroudi,Triantafyllos Afouras,Tushar Nagarajan,Muhammad Maaz,Yale Song,Tengyu Ma,Shuming Hu,Suyog Jain,Miguel Martin,Huiyu Wang,Hanoona Rasheed,Peize Sun,Po-Yao Huang,Daniel Bolya,Nikhila Ravi,Shashank Jain,Tammy Stark,Shane Moon,Babak Damavandi,Vivian Lee,Andrew Westbury,Salman Khan,Philipp Krähenbühl,Piotr Dollár,Lorenzo Torresani,Kristen Grauman,Christoph Feichtenhofer
発行日 2025-04-17 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding はコメントを受け付けていません

ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation

要約

オブジェクト6Dのポーズ推定は、特に操作タスクでは、ロボット工学の重要な課題です。
視覚的および触覚(視覚能)情報を組み合わせた以前の研究は有望であることが示されていますが、これらのアプローチは、視覚能力データの入手可能性が限られているため、一般化に苦労することがよくあります。
このホワイトペーパーでは、ゼロショット視覚型のポーズ推定フレームワークであるVita-Zeroを紹介します。
私たちの主要な革新は、視覚モデルをバックボーンとして活用し、触覚と固有受容の観察から導き出された物理的制約に基づいて、実現可能性チェックとテスト時間の最適化を実行することにあります。
具体的には、触覚センサーが引力を誘発し、固有受容が反発力を生成するスプリングマスシステムとしてグリッパーとオブジェクトの相互作用をモデル化します。
現実世界のロボットセットアップでの実験を通じてフレームワークを検証し、把握、オブジェクトピッキング、両handoverを含む代表的な視覚的バックボーンと操作シナリオ全体でその有効性を実証します。
視覚モデルと比較して、私たちのアプローチは、手元のオブジェクトのポーズを追跡しながら、いくつかの抜本的な障害モードを克服します。
実験では、私たちのアプローチは、ADD-SのAUCで55%、ADDで60%の平均増加と、FoundationPosesと比較して80%低い位置誤差を示しています。

要約(オリジナル)

Object 6D pose estimation is a critical challenge in robotics, particularly for manipulation tasks. While prior research combining visual and tactile (visuotactile) information has shown promise, these approaches often struggle with generalization due to the limited availability of visuotactile data. In this paper, we introduce ViTa-Zero, a zero-shot visuotactile pose estimation framework. Our key innovation lies in leveraging a visual model as its backbone and performing feasibility checking and test-time optimization based on physical constraints derived from tactile and proprioceptive observations. Specifically, we model the gripper-object interaction as a spring-mass system, where tactile sensors induce attractive forces, and proprioception generates repulsive forces. We validate our framework through experiments on a real-world robot setup, demonstrating its effectiveness across representative visual backbones and manipulation scenarios, including grasping, object picking, and bimanual handover. Compared to the visual models, our approach overcomes some drastic failure modes while tracking the in-hand object pose. In our experiments, our approach shows an average increase of 55% in AUC of ADD-S and 60% in ADD, along with an 80% lower position error compared to FoundationPose.

arxiv情報

著者 Hongyu Li,James Akl,Srinath Sridhar,Tye Brady,Taskin Padir
発行日 2025-04-17 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation はコメントを受け付けていません

Perception Encoder: The best visual embeddings are not at the output of the network

要約

単純なビジョン言語学習を通じてトレーニングされた画像およびビデオ理解用の最先端のエンコーダーであるPerception Encoder(PE)を紹介します。
従来、ビジョンエンコーダーは、それぞれが分類、キャプション、ローカリゼーションなどの特定のダウンストリームタスクに合わせて調整されたさまざまな事前トレーニング目標に依存してきました。
驚くべきことに、慎重に調整された画像前登録レシピをスケーリングし、堅牢なビデオデータエンジンで精製した後、対照的なビジョン言語トレーニングだけで、これらすべてのダウンストリームタスクに強力で一般的な埋め込みを生成できることがわかります。
警告は1つだけです。これらの埋め込みは、ネットワークの中間層内に隠されています。
それらを引き出すために、2つのアライメント方法、マルチモーダル言語モデリングの言語アライメント、および密な予測のための空間アライメントを紹介します。
コアコントラストチェックポイントとともに、PEファミリーのモデルは、ゼロショット画像とビデオ分類や検索など、さまざまなタスクで最先端のパフォーマンスを実現しています。
ドキュメント、画像、ビデオQ&A;
検出、深度推定、追跡などの空間タスク。
さらなる調査を促進するために、合成および人間の注文のビデオのモデル、コード、および新しいデータセットをリリースしています。

要約(オリジナル)

We introduce Perception Encoder (PE), a state-of-the-art encoder for image and video understanding trained via simple vision-language learning. Traditionally, vision encoders have relied on a variety of pretraining objectives, each tailored to specific downstream tasks such as classification, captioning, or localization. Surprisingly, after scaling our carefully tuned image pretraining recipe and refining with our robust video data engine, we find that contrastive vision-language training alone can produce strong, general embeddings for all of these downstream tasks. There is only one caveat: these embeddings are hidden within the intermediate layers of the network. To draw them out, we introduce two alignment methods, language alignment for multimodal language modeling, and spatial alignment for dense prediction. Together with the core contrastive checkpoint, our PE family of models achieves state-of-the-art performance on a wide variety of tasks, including zero-shot image and video classification and retrieval; document, image, and video Q&A; and spatial tasks such as detection, depth estimation, and tracking. To foster further research, we are releasing our models, code, and a novel dataset of synthetically and human-annotated videos.

arxiv情報

著者 Daniel Bolya,Po-Yao Huang,Peize Sun,Jang Hyun Cho,Andrea Madotto,Chen Wei,Tengyu Ma,Jiale Zhi,Jathushan Rajasegaran,Hanoona Rasheed,Junke Wang,Marco Monteiro,Hu Xu,Shiyu Dong,Nikhila Ravi,Daniel Li,Piotr Dollár,Christoph Feichtenhofer
発行日 2025-04-17 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Perception Encoder: The best visual embeddings are not at the output of the network はコメントを受け付けていません

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

要約

このペーパーは、ロボット操作タスクにおける明確なオブジェクトのカテゴリレベルのポーズ推定に取り組み、新しいベンチマークデータセットを導入します。
最近の方法では、パーツがカテゴリレベルでポーズとサイズを推定しますが、ポイントクラウドの最初のセグメントパーツをセグメント化する幾何学的キューと複雑なマルチステージパイプラインに依存し、6Dポーズの正規化されたパーツ座標空間(NPCS)推定に依存しています。
これらのアプローチは、RGB画像からの密なセマンティックキューを見落としており、特に小さな部分を持つオブジェクトでは、最適ではない精度につながります。
これらの制限に対処するために、6Dポーズとカテゴリー的な明確な部分を推定するために、単一ステージネットワークCAP-NETを提案します。
この方法では、RGB-D機能を組み合わせて、各部品のインスタンスセグメンテーションとNPCS表現をエンドツーエンドの方法で生成します。
Cap-Netは、統一されたネットワークを使用して、ポイントワイズのクラスラベル、Centroidオフセット、およびNPCSマップを同時に予測します。
クラスタリングアルゴリズムは、推定された重心距離に基づいて同じ予測クラスのポイントをグループ化して、各部分を分離します。
最後に、各部品のNPCS領域は、最終的なポーズとサイズを回復するためにポイントクラウドと整合しています。
SIM-to-Realドメインギャップを橋渡しするために、これまでで最大のRGB-Dの明確なデータセットであるRGBD-ARTデータセットを導入します。
RGBD-ARTデータセットの実験的評価は、この方法が最先端のアプローチを大幅に上回ることを示しています。
ロボットタスクにおけるモデルの実際の展開は、その堅牢性と例外的なSIMから現実的な転送機能を強調し、その実質的な実用性を確認しています。
データセット、コード、事前に訓練されたモデルは、プロジェクトページで入手できます。

要約(オリジナル)

This paper tackles category-level pose estimation of articulated objects in robotic manipulation tasks and introduces a new benchmark dataset. While recent methods estimate part poses and sizes at the category level, they often rely on geometric cues and complex multi-stage pipelines that first segment parts from the point cloud, followed by Normalized Part Coordinate Space (NPCS) estimation for 6D poses. These approaches overlook dense semantic cues from RGB images, leading to suboptimal accuracy, particularly for objects with small parts. To address these limitations, we propose a single-stage Network, CAP-Net, for estimating the 6D poses and sizes of Categorical Articulated Parts. This method combines RGB-D features to generate instance segmentation and NPCS representations for each part in an end-to-end manner. CAP-Net uses a unified network to simultaneously predict point-wise class labels, centroid offsets, and NPCS maps. A clustering algorithm then groups points of the same predicted class based on their estimated centroid distances to isolate each part. Finally, the NPCS region of each part is aligned with the point cloud to recover its final pose and size. To bridge the sim-to-real domain gap, we introduce the RGBD-Art dataset, the largest RGB-D articulated dataset to date, featuring photorealistic RGB images and depth noise simulated from real sensors. Experimental evaluations on the RGBD-Art dataset demonstrate that our method significantly outperforms the state-of-the-art approach. Real-world deployments of our model in robotic tasks underscore its robustness and exceptional sim-to-real transfer capabilities, confirming its substantial practical utility. Our dataset, code and pre-trained models are available on the project page.

arxiv情報

著者 Jingshun Huang,Haitao Lin,Tianyu Wang,Yanwei Fu,Xiangyang Xue,Yi Zhu
発行日 2025-04-17 14:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image はコメントを受け付けていません

Bayesian dynamic borrowing considering semantic similarity between outcomes for disproportionality analysis in FAERS

要約

自発的な報告システム(SRSS)の有害事象(AES)の定量的識別を強化するためのベイジアンダイナミック借入(BDB)アプローチを提示します。
このメソッドは、ベイジアン階層モデル内に事前に堅牢なメタ分析予測(MAP)を埋め込み、セマンティック類似性測定(SSM)を組み込んで、ターゲットPTに臨床的に類似したMEDDRA優先条件(PTS)から加重情報共有を可能にします。
この連続類似性ベースの借入は、現在の不均衡分析(DPA)における剛性階層グループの制限に対処します。
2015年から2019年の間にFDA有害事象報告システム(FAERS)のデータを使用して、MEDDRA高レベルグループ(HLGT)レベルでの借入とともに、標準情報コンポーネント(IC)分析とICと対照的にこのアプローチを評価します。
FDA製品ラベルの更新から派生した新しい参照セット(PVLENS)は、公式ラベル付けの前にAEを識別する際のメソッドパフォーマンスの将来の評価を可能にしました。
IC SSMアプローチは、従来のICとHLGTベースの借入の両方に比べて感度が向上し、F1スコアのマイナーなトレードオフとYoudenのインデックスを実証しました。
IC SSMは、従来のICよりも早く5か月以上にわたってより多くの真の陽性を特定し、検出された信号を一貫して特定しました。
わずかに低い凝集体のユーデンのインデックスにもかかわらず、IC SSMは市場後期初期の期間でより高いパフォーマンスを示し、HLGTベースの借入および従来のICよりも安定した関連する推定値を提供しました。
これらの発見は、従来のDPAメソッドに対するスケーラブルでコンテキスト対応の強化としてのSSMに基づいたベイジアン借入の使用をサポートしています。
将来の研究では、他のデータセット全体でこのアプローチを検証し、ケースレベルのデータを使用して追加の類似性メトリックとベイジアン推論戦略を調査する必要があります。

要約(オリジナル)

We present a Bayesian dynamic borrowing (BDB) approach to enhance the quantitative identification of adverse events (AEs) in spontaneous reporting systems (SRSs). The method embeds a robust meta-analytic predictive (MAP) prior within a Bayesian hierarchical model and incorporates semantic similarity measures (SSMs) to enable weighted information sharing from MedDRA Preferred Terms (PTs) that are clinically similar to the target PT. This continuous similarity-based borrowing addresses limitation of rigid hierarchical grouping in current disproportionality analysis (DPA). Using data from the FDA Adverse Event Reporting System (FAERS) between 2015 and 2019, we evaluate this approach – termed IC SSM – against standard Information Component (IC) analysis and IC with borrowing at the MedDRA high-level group term (HLGT) level. A novel references set (PVLens), derived from FDA product label updates, enabled prospective evaluation of method performance in identifying AEs prior to official labeling. The IC SSM approach demonstrated improved sensitivity compared to both traditional IC and HLGT-based borrowing, with minor trade-offs in F1 scores and Youden’s index. IC SSM consistently identified more true positives and detected signals over 5 months sooner than traditional IC. Despite a marginally lower aggregate Youden’s index, IC SSM showed higher performance in the early post-marketing period, providing more stable and relevant estimates than HLGT-based borrowing and traditional IC. These findings support the use of SSM-informed Bayesian borrowing as a scalable and context-aware enhancement to traditional DPA methods. Future research should validate this approach across other datasets and explore additional similarity metrics and Bayesian inference strategies using case-level data.

arxiv情報

著者 François Haguinet,Jeffery L Painter,Gregory E Powell,Andrea Callegaro,Andrew Bate
発行日 2025-04-17 13:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, G.3 | Bayesian dynamic borrowing considering semantic similarity between outcomes for disproportionality analysis in FAERS はコメントを受け付けていません