STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?

要約

具体化されたAIおよび自律運転のためのエンドツーエンドのソリューションとしてのマルチモーダル大手言語モデル(MLLM)の使用が一般的な傾向になりました。
MLLMは視覚的なセマンティック理解タスクのために広範囲に研究されていますが、実際のアプリケーションで正確かつ定量的な空間的理解を実行する能力は、ほとんど未検証のままであり、不確実な見通しにつながります。
モデルの空間的知能を評価するために、外観、ポーズ、変位、およびオブジェクトの動きの推定と予測などの挑戦的なタスクを通じてMLLMの空間的理解を評価するために設計されたベンチマークであるSTIベンチを導入します。
当社のベンチマークには、デスクトップ、屋内、屋外のシナリオ全体で、幅広いロボットと車両の運用が含まれています。
広範な実験は、最先端のMLLMが、特に正確な距離推定とモーション分析を必要とするタスクで、現実世界の空間的理解に依然として苦労していることを明らかにしています。

要約(オリジナル)

The use of Multimodal Large Language Models (MLLMs) as an end-to-end solution for Embodied AI and Autonomous Driving has become a prevailing trend. While MLLMs have been extensively studied for visual semantic understanding tasks, their ability to perform precise and quantitative spatial-temporal understanding in real-world applications remains largely unexamined, leading to uncertain prospects. To evaluate models’ Spatial-Temporal Intelligence, we introduce STI-Bench, a benchmark designed to evaluate MLLMs’ spatial-temporal understanding through challenging tasks such as estimating and predicting the appearance, pose, displacement, and motion of objects. Our benchmark encompasses a wide range of robot and vehicle operations across desktop, indoor, and outdoor scenarios. The extensive experiments reveals that the state-of-the-art MLLMs still struggle in real-world spatial-temporal understanding, especially in tasks requiring precise distance estimation and motion analysis.

arxiv情報

著者 Yun Li,Yiming Zhang,Tao Lin,XiangRui Liu,Wenxiao Cai,Zheng Liu,Bo Zhao
発行日 2025-04-21 13:43:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

A triple-branch network for latent fingerprint enhancement guided by orientation fields and minutiae

要約

潜在指紋の強化は、潜在的な指紋識別のプロセスにおける重要なステップです。
既存の深い学習ベースの強化方法は、特に低品質の指紋領域の復元において、実用的なアプリケーション要件に依然として不足しています。
潜在指紋のさまざまな領域には明確な強化戦略が必要であることを認識して、トリプルブランチ空間融合ネットワーク(TBSFNET)を提案します。これは、テーラード戦略を使用して画像の異なる領域を同時に強化します。
さらに、ネットワークの一般化能力を改善するために、方向フィールドとMinutiae関連のモジュールをTBSFNETに統合し、マルチレベル機能ガイダンスネットワーク(MLFGNET)を導入します。
モルフとマストデータセットの実験結果は、MLFGNETが既存の拡張アルゴリズムを上回ることを示しています。

要約(オリジナル)

Latent fingerprint enhancement is a critical step in the process of latent fingerprint identification. Existing deep learning-based enhancement methods still fall short of practical application requirements, particularly in restoring low-quality fingerprint regions. Recognizing that different regions of latent fingerprints require distinct enhancement strategies, we propose a Triple Branch Spatial Fusion Network (TBSFNet), which simultaneously enhances different regions of the image using tailored strategies. Furthermore, to improve the generalization capability of the network, we integrate orientation field and minutiae-related modules into TBSFNet and introduce a Multi-Level Feature Guidance Network (MLFGNet). Experimental results on the MOLF and MUST datasets demonstrate that MLFGNet outperforms existing enhancement algorithms.

arxiv情報

著者 Yurun Wang,Zerong Qi,Shujun Fu,Mingzheng Hu
発行日 2025-04-21 13:54:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Unwarping Screen Content Images via Structure-texture Enhancement Network and Transformation Self-estimation

要約

既存の暗黙的なニューラルネットワークベースの画像の巻き上げメソッドは、自然な画像でうまく機能しますが、画面コンテンツ画像(SCI)を処理するのに苦労します。
これに対処するために、Sci Warpingの変換の自尊心を備えた構造テクスチャーエンハンスメントネットワーク(sten)を提案します。
Stenは、Bスプラインの暗黙的な神経表現モジュールと、変換誤差推定と自己修正アルゴリズムを統合します。
2つの分岐で構成されています。構造推定ブランチ(SEB)は、局所集約とグローバル依存性モデリングを強化し、テクスチャ推定分岐(TEB)で構成され、B-SPLINE暗黙の神経表現を使用したテクスチャの詳細合成を改善します。
さらに、変換の自己推定モジュールは、変換誤差を自律的に推定し、座標変換マトリックスを修正し、実際の画像の歪みを効果的に処理します。
パブリックサイコンデータセットでの広範な実験は、私たちのアプローチが最先端の方法を大幅に上回ることを示しています。
よく知られている自然画像データセットの比較は、自然画像の歪みに対するアプローチの可能性も示しています。

要約(オリジナル)

While existing implicit neural network-based image unwarping methods perform well on natural images, they struggle to handle screen content images (SCIs), which often contain large geometric distortions, text, symbols, and sharp edges. To address this, we propose a structure-texture enhancement network (STEN) with transformation self-estimation for SCI warping. STEN integrates a B-spline implicit neural representation module and a transformation error estimation and self-correction algorithm. It comprises two branches: the structure estimation branch (SEB), which enhances local aggregation and global dependency modeling, and the texture estimation branch (TEB), which improves texture detail synthesis using B-spline implicit neural representation. Additionally, the transformation self-estimation module autonomously estimates the transformation error and corrects the coordinate transformation matrix, effectively handling real-world image distortions. Extensive experiments on public SCI datasets demonstrate that our approach significantly outperforms state-of-the-art methods. Comparisons on well-known natural image datasets also show the potential of our approach for natural image distortion.

arxiv情報

著者 Zhenzhen Xiao,Heng Liu,Bingwen Hu
発行日 2025-04-21 13:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Improving Sound Source Localization with Joint Slot Attention on Image and Audio

要約

サウンドソースのローカリゼーション(SSL)は、画像内の音源を見つけるタスクです。
ローカリゼーションラベルがないため、SSLの事実上の基準は、それぞれ単一の埋め込みベクターとして画像とオーディオを表現し、それらを使用して対照的な学習を介してSSLを学習することでした。
この目的のために、以前の作業は、イメージの埋め込みとしてローカル画像機能の1つをサンプリングし、すべてのローカルオーディオ機能を集計してオーディオ埋め込みを取得します。これは、入力の実際のターゲットとは無関係なノイズとバックグラウンドの存在のために最適ではありません。
画像とオーディオに関する共同スロットの注意によってこの慢性的な問題に対処する新しいSSLメソッドを提示します。
具体的には、2つのスロットが画像とオーディオ機能に競争力のあるターゲット表現とターゲット表現に分解し、画像とオーディオのターゲット表現のみが対照的な学習に使用されます。
また、画像とオーディオのローカル機能をさらに調整するために、クロスモーダルの注意マッチングを紹介します。
私たちの方法は、SSLの3つのパブリックベンチマークでほぼすべての設定で最高の設定を達成し、クロスモーダル検索で以前のすべての作業を大幅に上回りました。

要約(オリジナル)

Sound source localization (SSL) is the task of locating the source of sound within an image. Due to the lack of localization labels, the de facto standard in SSL has been to represent an image and audio as a single embedding vector each, and use them to learn SSL via contrastive learning. To this end, previous work samples one of local image features as the image embedding and aggregates all local audio features to obtain the audio embedding, which is far from optimal due to the presence of noise and background irrelevant to the actual target in the input. We present a novel SSL method that addresses this chronic issue by joint slot attention on image and audio. To be specific, two slots competitively attend image and audio features to decompose them into target and off-target representations, and only target representations of image and audio are used for contrastive learning. Also, we introduce cross-modal attention matching to further align local features of image and audio. Our method achieved the best in almost all settings on three public benchmarks for SSL, and substantially outperformed all the prior work in cross-modal retrieval.

arxiv情報

著者 Inho Kim,Youngkil Song,Jicheol Park,Won Hwa Kim,Suha Kwak
発行日 2025-04-21 14:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD | コメントする

Robust and Real-time Surface Normal Estimation from Stereo Disparities using Affine Transformations

要約

この作業では、整流されたステレオ画像ペアからの表面正常推定の新しい方法を導入し、格差から派生したアフィン変換を活用して、高速かつ正確な結果を達成します。
ステレオ画像ペアの修正が、計算の複雑さを減らすことにより、表面正常推定のプロセスをどのように簡素化するかを示します。
ノイズリダクションに対処するために、格差データを効率的に処理するために調整された畳み込み操作に触発されたカスタムアルゴリズムを開発します。
また、画像内の接続された表面成分を効率的に検出し、メソッドの堅牢性をさらに改善するための適応的ヒューリスティックテクニックを紹介します。
これらのメソッドを統合することにより、高速かつ正確な表面正常推定器を構築し、最終出力として密な方向のポイントクラウドを生成します。
私たちの方法は、ミドルベリーとCityscapesデータセットのシミュレートされた環境と現実世界のステレオ画像の両方を使用して検証され、GPUに実装されたときにリアルタイムのパフォーマンスと精度の大幅な改善を示しています。
受け入れられると、シェーダーソースコードが公開され、さらなる研究と再現性が促進されます。

要約(オリジナル)

This work introduces a novel method for surface normal estimation from rectified stereo image pairs, leveraging affine transformations derived from disparity values to achieve fast and accurate results. We demonstrate how the rectification of stereo image pairs simplifies the process of surface normal estimation by reducing computational complexity. To address noise reduction, we develop a custom algorithm inspired by convolutional operations, tailored to process disparity data efficiently. We also introduce adaptive heuristic techniques for efficiently detecting connected surface components within the images, further improving the robustness of the method. By integrating these methods, we construct a surface normal estimator that is both fast and accurate, producing a dense, oriented point cloud as the final output. Our method is validated using both simulated environments and real-world stereo images from the Middlebury and Cityscapes datasets, demonstrating significant improvements in real-time performance and accuracy when implemented on a GPU. Upon acceptance, the shader source code will be made publicly available to facilitate further research and reproducibility.

arxiv情報

著者 Csongor Csanad Kariko,Muhammad Rafi Faisal,Levente Hajder
発行日 2025-04-21 14:19:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

MoBGS: Motion Deblurring Dynamic 3D Gaussian Splatting for Blurry Monocular Video

要約

私たちは、エンドツーエンドの方法でぼやけた単眼動画からのシャープで高品質の斬新な空間的ビューを再構築できる、新しい脱生動的3Dガウススプラッティング(3DGS)フレームワークであるMOBGSを紹介します。
既存の動的な新規ビュー合成(NVS)メソッドは、さりげなくキャプチャされたビデオのモーションブラーに非常に敏感であり、その結果、レンダリング品質が大幅に分解されます。
最近のアプローチは、NVSのモーションブルーな入力に対処しますが、主に静的シーンの再構築に焦点を当てており、動的オブジェクトの専用モーションモデリングがありません。
これらの制限を克服するために、私たちのMOBGは、効果的な潜在カメラの軌跡推定のために、新しいぼやけた潜在潜在潜在カメラ推定(BLCE)方法を導入し、グローバルなカメラの動きを改善します。
さらに、グローバルなカメラとローカルオブジェクトの両方のモーションの一貫した脱硫黄を確保するために、物理的にインスパイアされた潜在的なカメラ誘発曝露推定(LCEE)方法を提案します。
MOBGSフレームワークは、目に見えない潜在的なタイムスタンプの時間的一貫性と、静的領域と動的領域の堅牢なモーション分解を保証します。
ステレオブラーデータセットと実際のぼやけたぼやけビデオに関する広範な実験は、MOBGが非常に最近の高度な方法(Dyblurfおよびdeblur4DGS)を大幅に上回り、モーションブラーの下で動的NVの最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

We present MoBGS, a novel deblurring dynamic 3D Gaussian Splatting (3DGS) framework capable of reconstructing sharp and high-quality novel spatio-temporal views from blurry monocular videos in an end-to-end manner. Existing dynamic novel view synthesis (NVS) methods are highly sensitive to motion blur in casually captured videos, resulting in significant degradation of rendering quality. While recent approaches address motion-blurred inputs for NVS, they primarily focus on static scene reconstruction and lack dedicated motion modeling for dynamic objects. To overcome these limitations, our MoBGS introduces a novel Blur-adaptive Latent Camera Estimation (BLCE) method for effective latent camera trajectory estimation, improving global camera motion deblurring. In addition, we propose a physically-inspired Latent Camera-induced Exposure Estimation (LCEE) method to ensure consistent deblurring of both global camera and local object motion. Our MoBGS framework ensures the temporal consistency of unseen latent timestamps and robust motion decomposition of static and dynamic regions. Extensive experiments on the Stereo Blur dataset and real-world blurry videos show that our MoBGS significantly outperforms the very recent advanced methods (DyBluRF and Deblur4DGS), achieving state-of-the-art performance for dynamic NVS under motion blur.

arxiv情報

著者 Minh-Quan Viet Bui,Jongmin Park,Juan Luis Gonzalez Bello,Jaeho Moon,Jihyong Oh,Munchurl Kim
発行日 2025-04-21 14:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment

要約

構造化されていない屋外環境でロボット学習方法を四輪に展開することはエキサイティングな作業です。
学習ベースの方法によって現実世界の環境で動作する四重節は、いくつかの課題に遭遇します。トレーニングに必要な大量のシミュレータ生成データ、オンボードのリアルタイム処理の厳格な要求、および動的でノイズの多い条件によって引き起こされるSIMからリアルのギャップ。
現在の作品は、学習ベースの方法を四つ上場の制御に適用する際に大きなブレークスルーをもたらしましたが、インフラストラクチャシステムのトレーニングをゼロからめったに言及し、現実に展開することはめったにありません。
このギャップを埋めるために、エンドツーエンドのディープ補強学習(DRL)ポリシーのシームレスな転送を可能にするプラットフォームを提案します。
トレーニング環境、フライトダイナミクスコントロール、DRLアルゴリズム、Mavrosミドルウェアスタック、ハードウェアを包括的なワークフローとアーキテクチャに統合し、数分で四角いポリシーをゼロから現実世界の展開にトレーニングできるようにします。
当社のプラットフォームは、物理的な実験ベンチマークとして、ホバリング、動的障害物の回避、軌跡追跡、バルーンの打撃、未知の環境での計画など、豊富なタイプの環境を提供します。
広範な経験的検証を通じて、実世界の摂動の下で提案されたSIMからリアルプラットフォームの効率、および堅牢な屋外飛行性能を実証します。
詳細については、当社のWebサイトhttps://emnavi.tech/airgym/からご覧いただけます。

要約(オリジナル)

Deploying robot learning methods to a quadrotor in unstructured outdoor environments is an exciting task. Quadrotors operating in real-world environments by learning-based methods encounter several challenges: a large amount of simulator generated data required for training, strict demands for real-time processing onboard, and the sim-to-real gap caused by dynamic and noisy conditions. Current works have made a great breakthrough in applying learning-based methods to end-to-end control of quadrotors, but rarely mention the infrastructure system training from scratch and deploying to reality, which makes it difficult to reproduce methods and applications. To bridge this gap, we propose a platform that enables the seamless transfer of end-to-end deep reinforcement learning (DRL) policies. We integrate the training environment, flight dynamics control, DRL algorithms, the MAVROS middleware stack, and hardware into a comprehensive workflow and architecture that enables quadrotors’ policies to be trained from scratch to real-world deployment in several minutes. Our platform provides rich types of environments including hovering, dynamic obstacle avoidance, trajectory tracking, balloon hitting, and planning in unknown environments, as a physical experiment benchmark. Through extensive empirical validation, we demonstrate the efficiency of proposed sim-to-real platform, and robust outdoor flight performance under real-world perturbations. Details can be found from our website https://emnavi.tech/AirGym/.

arxiv情報

著者 Kangyao Huang,Hao Wang,Yu Luo,Jingyu Chen,Jintao Chen,Xiangkui Zhang,Xiangyang Ji,Huaping Liu
発行日 2025-04-21 14:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

要約

表現セグメンテーション(RES)を参照するなどのタスクを含むピクセルの接地は、ビジョンと言語のモダリティのギャップを埋める大きな可能性のために、かなりの注目を集めています。
ただし、このドメインの進歩は、現在、限られたオブジェクトカテゴリ、テキストの多様性が不十分、高品質の注釈が不足しているなど、既存のデータセットに固有の制限によって制約されています。
これらの制限を緩和するために、次のことを含むGroundingSuiteを紹介します。(1)複数の視覚言語モデル(VLM)エージェントを活用する自動データアノテーションフレームワーク。
(2)956万の多様な紹介式とそれらに対応するセグメンテーションを含む大規模なトレーニングデータセット。
(3)3,800枚の画像で構成される細心の注意を払ってキュレーションされた評価ベンチマーク。
GroundingSuiteトレーニングデータセットは、大幅なパフォーマンスの改善を促進し、最先端の結果を達成できるようにトレーニングされたモデルを可能にします。
具体的には、Grefcocoで68.9のCiouとRefcocomで55.3のGiou。
さらに、GroundingSuite Annotationフレームワークは、現在の主要なデータアノテーション方法、つまりGLAMMよりも$ 4.5 \ Times $ $ $ $ 4.5 \ Times $と比較して優れた効率を示しています。

要約(オリジナル)

Pixel grounding, encompassing tasks such as Referring Expression Segmentation (RES), has garnered considerable attention due to its immense potential for bridging the gap between vision and language modalities. However, advancements in this domain are currently constrained by limitations inherent in existing datasets, including limited object categories, insufficient textual diversity, and a scarcity of high-quality annotations. To mitigate these limitations, we introduce GroundingSuite, which comprises: (1) an automated data annotation framework leveraging multiple Vision-Language Model (VLM) agents; (2) a large-scale training dataset encompassing 9.56 million diverse referring expressions and their corresponding segmentations; and (3) a meticulously curated evaluation benchmark consisting of 3,800 images. The GroundingSuite training dataset facilitates substantial performance improvements, enabling models trained on it to achieve state-of-the-art results. Specifically, a cIoU of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the GroundingSuite annotation framework demonstrates superior efficiency compared to the current leading data annotation method, i.e., $4.5 \times$ faster than the GLaMM.

arxiv情報

著者 Rui Hu,Lianghui Zhu,Yuxuan Zhang,Tianheng Cheng,Lei Liu,Heng Liu,Longjin Ran,Xiaoxin Chen,Wenyu Liu,Xinggang Wang
発行日 2025-04-21 14:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

要約

このペーパーでは、EasyEdit2を紹介します。これは、大規模な言語モデル(LLM)動作を制御するためのプラグアンドプレイ調整可能性を可能にするために設計されたフレームワークです。
EasyEdit2は、安全性、感情、人格、推論パターン、事実、言語の特徴など、幅広いテスト時間介入をサポートしています。
前任者とは異なり、EasyEdit2は、シームレスなモデルステアリング専用に設計された新しいアーキテクチャを備えています。
ステアリングベクトルジェネレーターやステアリングベクトルアプリアなどの重要なモジュールで構成されており、ステアリングベクターの自動生成と適用がパラメーターを変更せずにモデルの動作に影響を与えることができます。
EasyEdit2の主な利点の1つは、使用ユーザーが簡単にすることで、広範な技術的知識が必要ないことです。
たった1つの例を使用すると、モデルの応答を効果的にガイドして調整することができ、アクセスしやすく効率的な正確な制御を実現できます。
経験的には、さまざまなLLMのモデルステアリングパフォーマンスを報告し、これらの手法の有効性を実証します。
https://github.com/zjunlp/easyeditのGithubでソースコードをリリースしました。
さらに、https://zjunlp.github.io/project/easyedit2/videoでデモビデオを提供して、すばやく紹介します。

要約(オリジナル)

In this paper, we introduce EasyEdit2, a framework designed to enable plug-and-play adjustability for controlling Large Language Model (LLM) behaviors. EasyEdit2 supports a wide range of test-time interventions, including safety, sentiment, personality, reasoning patterns, factuality, and language features. Unlike its predecessor, EasyEdit2 features a new architecture specifically designed for seamless model steering. It comprises key modules such as the steering vector generator and the steering vector applier, which enable automatic generation and application of steering vectors to influence the model’s behavior without modifying its parameters. One of the main advantages of EasyEdit2 is its ease of use-users do not need extensive technical knowledge. With just a single example, they can effectively guide and adjust the model’s responses, making precise control both accessible and efficient. Empirically, we report model steering performance across different LLMs, demonstrating the effectiveness of these techniques. We have released the source code on GitHub at https://github.com/zjunlp/EasyEdit along with a demonstration notebook. In addition, we provide a demo video at https://zjunlp.github.io/project/EasyEdit2/video for a quick introduction.

arxiv情報

著者 Ziwen Xu,Shuxun Wang,Kewei Xu,Haoming Xu,Mengru Wang,Xinle Deng,Yunzhi Yao,Guozhou Zheng,Huajun Chen,Ningyu Zhang
発行日 2025-04-21 14:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG | コメントする

Instance-Adaptive Keypoint Learning with Local-to-Global Geometric Aggregation for Category-Level Object Pose Estimation

要約

カテゴリレベルのオブジェクトのポーズ推定は、事前に定義されたカテゴリから以前に見えなかったインスタンスの6Dポーズとサイズを予測することを目的としており、多様なオブジェクトインスタンス全体で強力な一般化が必要です。
多くの以前の方法は、クラス内のバリエーションを軽減しようとしますが、それらはしばしば複雑な幾何学または標準的な形状からの重要な逸脱を示すインスタンスと格闘しています。
この課題に対処するために、ローカルからグローバルへの幾何学的集合体を使用したインスタンス適応キーポイント学習を可能にする新しいカテゴリレベルのオブジェクトポーズ推定フレームワークであるInkl-Poseを提案します。
具体的には、私たちのアプローチは、最初に、インスタンス適応性のあるキーポイントジェネレーターを介して、意味的に一貫した幾何学的な有益なキーポイントを予測し、次に次のことを改良します。
MAMBAでの双方向モデリングを有効にするために、後方特徴シーケンスを構築しながら空間的一貫性を保持する特徴シーケンスフリッピング戦略を導入します。
さらに、キーポイント分布の均一なカバレッジと空間的多様性を実施するために、表面損失と分離損失を設計します。
生成されたキーポイントは、オブジェクトの6Dポーズとサイズを回帰するための標準空間に最終的にマッピングされます。
Camera25、Real275、およびHouseCAT6Dでの広範な実験は、INKLポーズが最先端のパフォーマンスを達成し、既存の方法を大幅に上回ることを示しています。

要約(オリジナル)

Category-level object pose estimation aims to predict the 6D pose and size of previously unseen instances from predefined categories, requiring strong generalization across diverse object instances. Although many previous methods attempt to mitigate intra-class variations, they often struggle with instances exhibiting complex geometries or significant deviations from canonical shapes. To address this challenge, we propose INKL-Pose, a novel category-level object pose estimation framework that enables INstance-adaptive Keypoint Learning with local-to-global geometric aggregation. Specifically, our approach first predicts semantically consistent and geometric informative keypoints through an Instance-Adaptive Keypoint Generator, then refines them with: (1) a Local Keypoint Feature Aggregator capturing fine-grained geometries, and (2) a Global Keypoint Feature Aggregator using bidirectional Mamba for structural consistency. To enable bidirectional modeling in Mamba, we introduce a Feature Sequence Flipping strategy that preserves spatial coherence while constructing backward feature sequences. Additionally, we design a surface loss and a separation loss to enforce uniform coverage and spatial diversity in keypoint distribution. The generated keypoints are finally mapped to a canonical space for regressing the object’s 6D pose and size. Extensive experiments on CAMERA25, REAL275, and HouseCat6D demonstrate that INKL-Pose achieves state-of-the-art performance and significantly outperforms existing methods.

arxiv情報

著者 Xiao Zhang,Lu Zou,Tao Lu,Yuan Yao,Zhangjin Huang,Guoping Wang
発行日 2025-04-21 14:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする