FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos

要約

ビデオ生成における最近の進歩は、特にますます洗練されたモデルの出現により、AIに生成されたコンテンツの評価に大きな課題をもたらしました。
そのようなビデオで観察されるさまざまな矛盾と欠陥は本質的に複雑であり、全体的な得点を困難にしています。
このホワイトペーパーでは、微調整された推論をビデオ評価に統合することの重要な重要性を強調し、$ \ textbf {f} $ ing $ \ textbf {er} $を提案します。
$ \ textbf {r} $スコアを備えたイーソンモデル。これは、その後、さまざまなアプリケーションの全体的なスコアに重み付けされる可能性があります。
具体的には、LLMSを活用して、5つの異なる視点にわたってエンティティレベルの質問を導き出します。これは、(i)コンテンツの特定のエンティティに焦点を当てているため、MLLMSが回答またはスコアリングをより簡単にし、(ii)がより解釈可能になります。
次に、約3.3kのビデオとそれぞれに対応する60kのファイングレインのQAアノテーションで構成される指データセットを作成します。それぞれに詳細な理由があります。
それに基づいて、様々なトレーニングプロトコルをさらに調査して、正解予測のためにMLLMSの推論能力を最大限に活用します。
広範な実験は、コールドスタート戦略を使用してグループ相対ポリシー最適化(GRPO)を使用して訓練された推論モデルが最高のパフォーマンスを達成することを示しています。
特に、私たちのモデルは、既存の方法を、Genai-Benchで$ 11.8 \%$、Monetbenchで5.5 \%$の相対マージンで上回ります。これは、他の方法で使用されるトレーニングサンプルの最大10分の1です。
コードとデータセットはまもなくリリースされます。

要約(オリジナル)

Recent advances in video generation have posed great challenges in the assessment of AI-generated content, particularly with the emergence of increasingly sophisticated models. The various inconsistencies and defects observed in such videos are inherently complex, making overall scoring notoriously difficult. In this paper, we emphasize the critical importance of integrating fine-grained reasoning into video evaluation, and we propose $\textbf{F}$ing$\textbf{ER}$, a novel entity-level reasoning evaluation framework that first automatically generates $\textbf{F}$ine-grained $\textbf{E}$ntity-level questions, and then answers those questions by a $\textbf{R}$easoning model with scores, which can be subsequently weighted summed to an overall score for different applications. Specifically, we leverage LLMs to derive entity-level questions across five distinct perspectives, which (i) often focus on some specific entities of the content, thereby making answering or scoring much easier by MLLMs, and (ii) are more interpretable. Then we construct a FingER dataset, consisting of approximately 3.3k videos and corresponding 60k fine-grained QA annotations, each with detailed reasons. Based on that, we further investigate various training protocols to best incentivize the reasoning capability of MLLMs for correct answer prediction. Extensive experiments demonstrate that a reasoning model trained using Group Relative Policy Optimization (GRPO) with a cold-start strategy achieves the best performance. Notably, our model surpasses existing methods by a relative margin of $11.8\%$ on GenAI-Bench and $5.5\%$ on MonetBench with only 3.3k training videos, which is at most one-tenth of the training samples utilized by other methods. Our code and dataset will be released soon.

arxiv情報

著者 Rui Chen,Lei Sun,Jing Tang,Geng Li,Xiangxiang Chu
発行日 2025-04-14 16:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos はコメントを受け付けていません

Improving Tropical Cyclone Forecasting With Video Diffusion Models

要約

熱帯低気圧(TC)予測は、災害の準備と緩和に不可欠です。
最近の深い学習アプローチは有望であることが示されていますが、既存の方法はTCの進化を一連の独立したフレーム間予測として扱い、長期的なダイナミクスをキャプチャする能力を制限することがよくあります。
TC予測のビデオ拡散モデルの新しいアプリケーションを提示し、追加の時間層を介して時間的依存性を明示的にモデル化します。
私たちのアプローチにより、モデルは複数のフレームを同時に生成し、サイクロンの進化パターンをより適切にキャプチャできます。
低データ体制の個人フレームの品質とパフォーマンスを大幅に改善する2段階のトレーニング戦略を導入します。
実験結果は、私たちの方法がNath et alの以前のアプローチよりも優れていることを示しています。
MAEで19.3%、PSNRで16.2%、SSIMで36.1%。
最も注目すべきは、信頼できる予測期間を36〜50時間に拡張することです。
従来のメトリックとFR \ ‘Echetビデオ距離(FVD)の両方を使用した包括的な評価を通じて、私たちのアプローチは、競争力のあるシングルフレーム品質を維持しながら、より一時的に一貫した予測を生成することを実証します。
https://github.com/ren-creater/forecast-video-diffmodelsでアクセス可能なコード。

要約(オリジナル)

Tropical cyclone (TC) forecasting is crucial for disaster preparedness and mitigation. While recent deep learning approaches have shown promise, existing methods often treat TC evolution as a series of independent frame-to-frame predictions, limiting their ability to capture long-term dynamics. We present a novel application of video diffusion models for TC forecasting that explicitly models temporal dependencies through additional temporal layers. Our approach enables the model to generate multiple frames simultaneously, better capturing cyclone evolution patterns. We introduce a two-stage training strategy that significantly improves individual-frame quality and performance in low-data regimes. Experimental results show our method outperforms the previous approach of Nath et al. by 19.3% in MAE, 16.2% in PSNR, and 36.1% in SSIM. Most notably, we extend the reliable forecasting horizon from 36 to 50 hours. Through comprehensive evaluation using both traditional metrics and Fr\’echet Video Distance (FVD), we demonstrate that our approach produces more temporally coherent forecasts while maintaining competitive single-frame quality. Code accessible at https://github.com/Ren-creater/forecast-video-diffmodels.

arxiv情報

著者 Zhibo Ren,Pritthijit Nath,Pancham Shukla
発行日 2025-04-14 16:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.ao-ph | Improving Tropical Cyclone Forecasting With Video Diffusion Models はコメントを受け付けていません

PG-DPIR: An efficient plug-and-play method for high-count Poisson-Gaussian inverse problems

要約

Poisson-Gaussianノイズは、さまざまなイメージングシステムのノイズを説明するため、ポアソンガウス画像の修復に効率的なアルゴリズムが必要です。
ディープラーニング方法は最先端のパフォーマンスを提供しますが、多くの場合、監視された設定で使用する場合はセンサー固有のトレーニングが必要です。
有望な代替手段は、プラグアンドプレイ(PNP)メソッドによって与えられます。これは、emo装置を介した正則化のみを学習することで構成され、同じネットワークを持ついくつかのソースから画像を復元できます。
このペーパーでは、DPIRから適応した大量のポアソンガウス逆問題の効率的なPNPメソッドであるPG-DPIRを紹介します。
DPIRは白いガウスノイズ用に設計されていますが、ポアソンガウスノイズへの素朴な適応は、閉じた型の近位演算子が存在しないため、アルゴリズムを法外に遅くすることにつながります。
これに対処するために、ポアソンガウスノイズの特異性にDPIRを適応させ、特に数桁の収束を加速する近位ステップに必要な勾配降下の効率的な初期化を提案します。
実験は、衛星画像の復元と超解像度の問題で行われます。
高解像度の現実的なプレアデス画像は、実験のためにシミュレートされます。これは、PG-DPIRが効率を向上させて最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Poisson-Gaussian noise describes the noise of various imaging systems thus the need of efficient algorithms for Poisson-Gaussian image restoration. Deep learning methods offer state-of-the-art performance but often require sensor-specific training when used in a supervised setting. A promising alternative is given by plug-and-play (PnP) methods, which consist in learning only a regularization through a denoiser, allowing to restore images from several sources with the same network. This paper introduces PG-DPIR, an efficient PnP method for high-count Poisson-Gaussian inverse problems, adapted from DPIR. While DPIR is designed for white Gaussian noise, a naive adaptation to Poisson-Gaussian noise leads to prohibitively slow algorithms due to the absence of a closed-form proximal operator. To address this, we adapt DPIR for the specificities of Poisson-Gaussian noise and propose in particular an efficient initialization of the gradient descent required for the proximal step that accelerates convergence by several orders of magnitude. Experiments are conducted on satellite image restoration and super-resolution problems. High-resolution realistic Pleiades images are simulated for the experiments, which demonstrate that PG-DPIR achieves state-of-the-art performance with improved efficiency, which seems promising for on-ground satellite processing chains.

arxiv情報

著者 Maud Biquard,Marie Chabert,Florence Genin,Christophe Latry,Thomas Oberlin
発行日 2025-04-14 16:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | PG-DPIR: An efficient plug-and-play method for high-count Poisson-Gaussian inverse problems はコメントを受け付けていません

Towards Scenario- and Capability-Driven Dataset Development and Evaluation: An Approach in the Context of Mapless Automated Driving

要約

ディープラーニングモデルの機能を定義する上でのデータセットの基本的な役割により、急速な増殖につながりました。
同時に、自動化された運転における環境認識のためのデータセット開発のプロセスに焦点を当てた公開された研究は不足しており、それにより、公然と利用可能なデータセットの適用性を低下させ、効果的な環境知覚システムの開発を妨げました。
センサーベースのMapless Automated Drivingは、この制限が明らかなコンテキストの1つです。
リアルタイムセンサーデータを活用する一方で、事前に定義されたHDマップの代わりに、予期しない環境の変化を効果的にナビゲートすることにより、適応性と安全性が向上することを約束しますが、Perception Systemが提供する情報の範囲と複雑さの要求も増加させます。
これらの課題に対処するために、データセット開発に対するシナリオおよび能力ベースのアプローチを提案します。
ISO/TR 4804によって拡張されたISO 21448(意図された機能の安全性、SOTIFの安全性)に基づいて、当社のアプローチは、データセット要件の構造化された導出を促進します。
これは、意味のある新しいデータセットの開発に役立つだけでなく、既存のデータセットの効果的な比較を可能にします。
この方法論を広範囲の既存のレーン検出データセットに適用すると、特に現実世界の適用性、重要な機能のラベル付けの欠如、複雑な駆動操作のための包括的な情報がないという点で、現在のデータセットの大きな制限を特定します。

要約(オリジナル)

The foundational role of datasets in defining the capabilities of deep learning models has led to their rapid proliferation. At the same time, published research focusing on the process of dataset development for environment perception in automated driving has been scarce, thereby reducing the applicability of openly available datasets and impeding the development of effective environment perception systems. Sensor-based, mapless automated driving is one of the contexts where this limitation is evident. While leveraging real-time sensor data, instead of pre-defined HD maps promises enhanced adaptability and safety by effectively navigating unexpected environmental changes, it also increases the demands on the scope and complexity of the information provided by the perception system. To address these challenges, we propose a scenario- and capability-based approach to dataset development. Grounded in the principles of ISO 21448 (safety of the intended functionality, SOTIF), extended by ISO/TR 4804, our approach facilitates the structured derivation of dataset requirements. This not only aids in the development of meaningful new datasets but also enables the effective comparison of existing ones. Applying this methodology to a broad range of existing lane detection datasets, we identify significant limitations in current datasets, particularly in terms of real-world applicability, a lack of labeling of critical features, and an absence of comprehensive information for complex driving maneuvers.

arxiv情報

著者 Felix Grün,Marcus Nolte,Markus Maurer
発行日 2025-04-14 16:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Scenario- and Capability-Driven Dataset Development and Evaluation: An Approach in the Context of Mapless Automated Driving はコメントを受け付けていません

Better Coherence, Better Height: Fusing Physical Models and Deep Learning for Forest Height Estimation from Interferometric SAR Data

要約

合成開口レーダー(SAR)の画像からの森林の高さの推定は、多くの場合、伝統的な物理モデルに依存していますが、それは解釈可能でデータ効率が良くなりますが、一般化に苦労する可能性があります。
対照的に、ディープラーニング(DL)アプローチには物理的な洞察が欠けています。
これに対処するために、Cohnetを提案します。これは、両方の世界の最高を組み合わせたエンドツーエンドのフレームワークです。DLは、物理学に基づいた制約で最適化されています。
事前に訓練されたニューラル代理モデルを活用して、独自のトレーニング損失を通じて身体的妥当性を実施します。
私たちの実験は、このアプローチが森林の高さの推定精度を改善するだけでなく、予測の信頼性を高める意味のある機能を生成することを示しています。

要約(オリジナル)

Estimating forest height from Synthetic Aperture Radar (SAR) images often relies on traditional physical models, which, while interpretable and data-efficient, can struggle with generalization. In contrast, Deep Learning (DL) approaches lack physical insight. To address this, we propose CoHNet – an end-to-end framework that combines the best of both worlds: DL optimized with physics-informed constraints. We leverage a pre-trained neural surrogate model to enforce physical plausibility through a unique training loss. Our experiments show that this approach not only improves forest height estimation accuracy but also produces meaningful features that enhance the reliability of predictions.

arxiv情報

著者 Ragini Bal Mahesh,Ronny Hänsch
発行日 2025-04-14 16:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Better Coherence, Better Height: Fusing Physical Models and Deep Learning for Forest Height Estimation from Interferometric SAR Data はコメントを受け付けていません

Towards Low-Latency Event-based Obstacle Avoidance on a FPGA-Drone

要約

この作業は、FPGAアクセラレータでの衝突回避におけるアクション予測のための、従来のRGBベースのモデルに対するイベントベースのビジョンシステム(EVS)のパフォーマンスを定量的に評価します。
我々の実験は、EVSモデルが、特に分配外データでテストされた場合、RGBベースのモデルと比較して、有効なフレームレート(1 kHz)および低い時間(-20 ms)および空間予測エラー(-20 mm)を達成することを示しています。
また、EVSモデルは、最適な回避操作を選択する際に優れた堅牢性を示しています。
特に、運動状態と静止状態を区別する際に、精度で59パーセントポイントの優位性(78%対19%)と大幅に高いF1スコア(0.73対0.06)を達成し、RGBモデルの過剰フィットに対する感受性を強調します。
空間クラスのさまざまな組み合わせでのさらなる分析により、両方のテストデータセットでのEVSモデルの一貫したパフォーマンスが確認されます。
最後に、システムのエンドツーエンドを評価し、約2.14ミリ秒の遅延を達成し、イベント集約(1ミリ秒)と最大のコンポーネントを処理ユニット(0.94ミリ秒)で推論しました。
これらの結果は、リアルタイムの衝突回避に対するイベントベースのビジョンの利点を強調し、リソースに制約のある環境での展開の可能性を示しています。

要約(オリジナル)

This work quantitatively evaluates the performance of event-based vision systems (EVS) against conventional RGB-based models for action prediction in collision avoidance on an FPGA accelerator. Our experiments demonstrate that the EVS model achieves a significantly higher effective frame rate (1 kHz) and lower temporal (-20 ms) and spatial prediction errors (-20 mm) compared to the RGB-based model, particularly when tested on out-of-distribution data. The EVS model also exhibits superior robustness in selecting optimal evasion maneuvers. In particular, in distinguishing between movement and stationary states, it achieves a 59 percentage point advantage in precision (78% vs. 19%) and a substantially higher F1 score (0.73 vs. 0.06), highlighting the susceptibility of the RGB model to overfitting. Further analysis in different combinations of spatial classes confirms the consistent performance of the EVS model in both test data sets. Finally, we evaluated the system end-to-end and achieved a latency of approximately 2.14 ms, with event aggregation (1 ms) and inference on the processing unit (0.94 ms) accounting for the largest components. These results underscore the advantages of event-based vision for real-time collision avoidance and demonstrate its potential for deployment in resource-constrained environments.

arxiv情報

著者 Pietro Bonazzi,Christian Vogt,Michael Jost,Lyes Khacef,Federico Paredes-Vallés,Michele Magno
発行日 2025-04-14 16:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Low-Latency Event-based Obstacle Avoidance on a FPGA-Drone はコメントを受け付けていません

GPS: Distilling Compact Memories via Grid-based Patch Sampling for Efficient Online Class-Incremental Learning

要約

オンラインクラスインクリメンタル学習は、壊滅的な忘却を緩和しながら、過去のデータへのアクセスが制限されている新しいクラスに継続的に適応できるようにすることを目的としています。
リプレイベースの方法は、以前のサンプルの小さなメモリバッファーを維持し、競争力のあるパフォーマンスを達成することにより、これに対処します。
制約付きストレージの下で効果的なリプレイのために、最近のアプローチは蒸留データを活用して、メモリの情報性を高めます。
ただし、このようなアプローチには、バイレベルの最適化の使用により、多くの場合、大幅な計算オーバーヘッドが含まれます。
これらの制限に動機付けられて、訓練可能なモデルに頼らずに有益なメモリサンプルを蒸留するための軽量で効果的な戦略であるグリッドベースのパッチサンプリング(GPS)を導入します。
GPSは、元の画像からピクセルのサブセットをサンプリングすることにより、有益なサンプルを生成し、セマンティックコンテンツと構造情報の両方を保存するコンパクトな低解像度表現を生成します。
リプレイ中、これらの表現はトレーニングと評価をサポートするために再組み立てされています。
大規模なベンチマークでの実験は、GRSを既存のリプレイフレームワークにシームレスに統合できることを示しており、計算オーバーヘッドが制限されているメモリが制限された設定での平均終了精度を3%〜4%改善します。

要約(オリジナル)

Online class-incremental learning aims to enable models to continuously adapt to new classes with limited access to past data, while mitigating catastrophic forgetting. Replay-based methods address this by maintaining a small memory buffer of previous samples, achieving competitive performance. For effective replay under constrained storage, recent approaches leverage distilled data to enhance the informativeness of memory. However, such approaches often involve significant computational overhead due to the use of bi-level optimization. Motivated by these limitations, we introduce Grid-based Patch Sampling (GPS), a lightweight and effective strategy for distilling informative memory samples without relying on a trainable model. GPS generates informative samples by sampling a subset of pixels from the original image, yielding compact low-resolution representations that preserve both semantic content and structural information. During replay, these representations are reassembled to support training and evaluation. Experiments on extensive benchmarks demonstrate that GRS can be seamlessly integrated into existing replay frameworks, leading to 3%-4% improvements in average end accuracy under memory-constrained settings, with limited computational overhead.

arxiv情報

著者 Mingchuan Ma,Yuhao Zhou,Jindi Lv,Yuxin Tian,Dan Si,Shujian Li,Qing Ye,Jiancheng Lv
発行日 2025-04-14 16:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GPS: Distilling Compact Memories via Grid-based Patch Sampling for Efficient Online Class-Incremental Learning はコメントを受け付けていません

HUMOTO: A 4D Dataset of Mocap Human Object Interactions

要約

モーション生成、コンピュータービジョン、およびロボット工学アプリケーションのための人間とオブジェクトの相互作用の高忠実度データセットであるオブジェクト(Humoto)で人間の動きを提示します。
736のシーケンス(30 fpsで7,875秒)を備えた上音は、63の正確にモデル化されたオブジェクトと72の関節部品との相互作用をキャプチャします。
私たちの革新には、シーン主導のLLMスクリプトパイプラインが、自然な進行を備えた完全で目的のあるタスクを作成し、閉塞を効果的に処理するためのMoCap-and-Camera録音セットアップが含まれます。
調理から屋外のピクニックまで、多様なアクティビティにまたがって、上音は身体的精度と論理的なタスクの流れの両方を保存します。
プロのアーティストは、各シーケンスを厳密にきれいにし、検証し、足の滑りとオブジェクトの浸透を最小限に抑えます。
他のデータセットと比較してベンチマークも提供します。
Humotoの包括的なフルボディモーションと同時マルチオブジェクトインタラクションは、重要なデータキャプチャの課題に対処し、アニメーション、ロボット工学、および具体化されたAIシステムにおける実用的なアプリケーションを使用して、研究ドメイン全体で現実的な人間とオブジェクトの相互作用モデリングを促進する機会を提供します。
プロジェクト:https://jiaxin-lu.github.io/humoto/。

要約(オリジナル)

We present Human Motions with Objects (HUMOTO), a high-fidelity dataset of human-object interactions for motion generation, computer vision, and robotics applications. Featuring 736 sequences (7,875 seconds at 30 fps), HUMOTO captures interactions with 63 precisely modeled objects and 72 articulated parts. Our innovations include a scene-driven LLM scripting pipeline creating complete, purposeful tasks with natural progression, and a mocap-and-camera recording setup to effectively handle occlusions. Spanning diverse activities from cooking to outdoor picnics, HUMOTO preserves both physical accuracy and logical task flow. Professional artists rigorously clean and verify each sequence, minimizing foot sliding and object penetrations. We also provide benchmarks compared to other datasets. HUMOTO’s comprehensive full-body motion and simultaneous multi-object interactions address key data-capturing challenges and provide opportunities to advance realistic human-object interaction modeling across research domains with practical applications in animation, robotics, and embodied AI systems. Project: https://jiaxin-lu.github.io/humoto/ .

arxiv情報

著者 Jiaxin Lu,Chun-Hao Paul Huang,Uttaran Bhattacharya,Qixing Huang,Yi Zhou
発行日 2025-04-14 16:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HUMOTO: A 4D Dataset of Mocap Human Object Interactions はコメントを受け付けていません

Intelligent Framework for Human-Robot Collaboration: Dynamic Ergonomics and Adaptive Decision-Making

要約

産業環境への共同ロボットの統合により、生産性が向上しましたが、オペレーターの安全性と人間工学に関連する重要な課題も強調されています。
このペーパーでは、高度な視覚的認識、継続的な人間工学的監視、および適応行動ツリーの意思決定を統合する革新的なフレームワークを提案し、通常、孤立したコンポーネントとして動作する従来の方法の制限を克服します。
私たちのアプローチは、深い学習モデル、高度な追跡アルゴリズム、および動的な人間工学的評価をモジュール式、スケーラブル、適応システムに合成します。
実験的検証は、複数の次元にわたる既存のソリューションに対するフレームワークの優位性を示しています。視覚認識モジュールは、72.4%MAP@50:95で以前の検出モデルを上回りました。
このシステムは、オペレーターの意図を認識する際に高い精度を達成しました(92.5%)。
最小限のレイテンシ(0.57秒)で人間工学に基づいたリスクを速やかに分類しました。
また、非常に敏感に対応する意思決定機能(0.07秒)を備えたロボット介入を動的に管理し、ベンチマークシステムよりも56%の改善を表しています。
この包括的なソリューションは、人間工学的安全性、運用効率、リアルタイムの適応性を優先することにより、産業環境での人間ロボットコラボレーションを強化するための堅牢なプラットフォームを提供します。

要約(オリジナル)

The integration of collaborative robots into industrial environments has improved productivity, but has also highlighted significant challenges related to operator safety and ergonomics. This paper proposes an innovative framework that integrates advanced visual perception, continuous ergonomic monitoring, and adaptive Behaviour Tree decision-making to overcome the limitations of traditional methods that typically operate as isolated components. Our approach synthesizes deep learning models, advanced tracking algorithms, and dynamic ergonomic assessments into a modular, scalable, and adaptive system. Experimental validation demonstrates the framework’s superiority over existing solutions across multiple dimensions: the visual perception module outperformed previous detection models with 72.4% mAP@50:95; the system achieved high accuracy in recognizing operator intentions (92.5%); it promptly classified ergonomic risks with minimal latency (0.57 seconds); and it dynamically managed robotic interventions with exceptionally responsive decision-making capabilities (0.07 seconds), representing a 56% improvement over benchmark systems. This comprehensive solution provides a robust platform for enhancing human-robot collaboration in industrial environments by prioritizing ergonomic safety, operational efficiency, and real-time adaptability.

arxiv情報

著者 Francesco Iodice,Elena De Momi,Arash Ajoudani
発行日 2025-04-14 17:02:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, 68T45, 93C85, cs.CV, cs.HC, cs.LG, cs.RO, H.5.2 | Intelligent Framework for Human-Robot Collaboration: Dynamic Ergonomics and Adaptive Decision-Making はコメントを受け付けていません

MonoDiff9D: Monocular Category-Level 9D Object Pose Estimation via Diffusion Model

要約

オブジェクトのポーズ推定は、ロボットが環境を理解し、相互作用するための中核的な手段です。
このタスクでは、単眼カテゴリレベルの方法は、単一のRGBカメラのみが必要なため、魅力的です。
ただし、現在の方法は、クラス内の既知のオブジェクトの形状前モデルまたはCADモデルに依存しています。
拡散ベースのモノクラーカテゴリレベル9Dオブジェクトポーズ生成方法、Monodiff9dを提案します。
私たちの動機は、拡散モデルの確率論的性質を活用して、クラス内の不明なオブジェクトの推定のための形状前、CADモデル、または深さセンサーの必要性を軽減することです。
最初に、単眼画像からdinov2を介して粗い深さをゼロショット方法で推定し、ポイントクラウドに変換します。
次に、ポイントクラウドのグローバルな特徴を入力画像と融合し、融合した特徴とエンコードされた時間ステップを使用して、monodiff9dを条件にします。
最後に、ガウスノイズからオブジェクトのポーズを回復するために、変圧器ベースの脱切り剤を設計します。
2つの一般的なベンチマークデータセットでの広範な実験は、Monodiff9Dが、どの段階でも形状前モデルまたはCADモデルを必要とせずに、最先端のモノクラーカテゴリレベルの9Dオブジェクトを達成することを示しています。
私たちのコードは、https://github.com/cnjianliu/monodiff9dで公開されます。

要約(オリジナル)

Object pose estimation is a core means for robots to understand and interact with their environment. For this task, monocular category-level methods are attractive as they require only a single RGB camera. However, current methods rely on shape priors or CAD models of the intra-class known objects. We propose a diffusion-based monocular category-level 9D object pose generation method, MonoDiff9D. Our motivation is to leverage the probabilistic nature of diffusion models to alleviate the need for shape priors, CAD models, or depth sensors for intra-class unknown object pose estimation. We first estimate coarse depth via DINOv2 from the monocular image in a zero-shot manner and convert it into a point cloud. We then fuse the global features of the point cloud with the input image and use the fused features along with the encoded time step to condition MonoDiff9D. Finally, we design a transformer-based denoiser to recover the object pose from Gaussian noise. Extensive experiments on two popular benchmark datasets show that MonoDiff9D achieves state-of-the-art monocular category-level 9D object pose estimation accuracy without the need for shape priors or CAD models at any stage. Our code will be made public at https://github.com/CNJianLiu/MonoDiff9D.

arxiv情報

著者 Jian Liu,Wei Sun,Hui Yang,Jin Zheng,Zichen Geng,Hossein Rahmani,Ajmal Mian
発行日 2025-04-14 17:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MonoDiff9D: Monocular Category-Level 9D Object Pose Estimation via Diffusion Model はコメントを受け付けていません