Mobi-$π$: Mobilizing Your Robot Learning Policy

要約

学んだ視覚運動ポリシーは、ますます複雑な操作タスクを実行することができます。
ただし、これらのポリシーのほとんどは、限られたロボットの位置とカメラの視点から収集されたデータについてトレーニングされています。
これにより、新しいロボットポジションへの一般化が不十分になり、特にボタンを押すことや蛇口回転などの正確なタスクで、モバイルプラットフォームでのこれらのポリシーの使用が制限されます。
この作業では、ポリシーの動員問題を策定します。限られたカメラの視点で訓練された操作ポリシーに関して分布している新しい環境でモバイルロボットベースのポーズを見つけます。
ポリシー自体が目に見えないロボットベースの初期化により堅牢であるために、ポリシー自体がより堅牢であると比較すると、ポリシーの動員は操作からのナビゲーションを分離しているため、追加のデモを必要としません。
重要なことに、この問題の定式化は、新しい視点に対する操作ポリシーの堅牢性を改善するための既存の努力を補完し、それらと互換性があり続けます。
ポリシーの動員を研究するために、次のことを含むmobi-$ \ pi $フレームワークを紹介します。(1)特定のポリシーを動員することの難しさを定量化するメトリック、(2)ロボカサに基づくシミュレートされたモバイル操作タスクのスイートは、ポリシーの動員を評価します。
また、ロボットのベースポーズを最適化して、学習したポリシーの分配内のベースポーズに合わせてナビゲーションと操作を橋渡しする新しいアプローチを提案します。
私たちのアプローチでは、新しいビュー合成のために3Dガウスのスプラッティング、ポーズ適合性を評価するスコア関数、および最適なロボットポーズを特定するためのサンプリングベースの最適化を利用しています。
私たちのアプローチは、シミュレーションと現実世界の両方の環境の両方でベースラインよりも優れていることを示し、政策の動員に対するその有効性を示しています。

要約(オリジナル)

Learned visuomotor policies are capable of performing increasingly complex manipulation tasks. However, most of these policies are trained on data collected from limited robot positions and camera viewpoints. This leads to poor generalization to novel robot positions, which limits the use of these policies on mobile platforms, especially for precise tasks like pressing buttons or turning faucets. In this work, we formulate the policy mobilization problem: find a mobile robot base pose in a novel environment that is in distribution with respect to a manipulation policy trained on a limited set of camera viewpoints. Compared to retraining the policy itself to be more robust to unseen robot base pose initializations, policy mobilization decouples navigation from manipulation and thus does not require additional demonstrations. Crucially, this problem formulation complements existing efforts to improve manipulation policy robustness to novel viewpoints and remains compatible with them. To study policy mobilization, we introduce the Mobi-$\pi$ framework, which includes: (1) metrics that quantify the difficulty of mobilizing a given policy, (2) a suite of simulated mobile manipulation tasks based on RoboCasa to evaluate policy mobilization, (3) visualization tools for analysis, and (4) several baseline methods. We also propose a novel approach that bridges navigation and manipulation by optimizing the robot’s base pose to align with an in-distribution base pose for a learned policy. Our approach utilizes 3D Gaussian Splatting for novel view synthesis, a score function to evaluate pose suitability, and sampling-based optimization to identify optimal robot poses. We show that our approach outperforms baselines in both simulation and real-world environments, demonstrating its effectiveness for policy mobilization.

arxiv情報

著者 Jingyun Yang,Isabella Huang,Brandon Vu,Max Bajracharya,Rika Antonova,Jeannette Bohg
発行日 2025-05-29 17:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Mobi-$π$: Mobilizing Your Robot Learning Policy はコメントを受け付けていません

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

要約

MLLMSは、最近のビデオ質問のために広く研究されています。
ただし、既存の評価のほとんどは、AIの生成コンテンツ(AIGC)などの合成ビデオを見下ろす自然なビデオに焦点を当てています。
一方、ビデオ生成のいくつかの作品は、生成されたビデオの品質を評価するためにMLLMSに依存していますが、AIGCビデオの解釈に関するMLLMSの機能はほとんど露出度の低いままです。
これに対処するために、AGCビデオでMLLMSの能力を包括的に評価するための4つのタスク – コヒーレンスの検証、エラー認識、エラータイプの検出、推論評価を導入する新しいベンチマークであるVF-Evalを提案します。
VF-Evalで13のフロンティアMLLMを評価し、最高のパフォーマンスモデルであるGPT-4.1でさえ、すべてのタスクで一貫して優れたパフォーマンスを達成するのに苦労していることがわかります。
これは、ベンチマークの挑戦的な性質を強調しています。
さらに、ビデオ生成の改善におけるVF-Valの実用的なアプリケーションを調査するために、実験を実施し、再繰り返し、MLLMを人間のフィードバックとより密接に調整することでビデオ生成に利益をもたらすことを実証します。

要約(オリジナル)

MLLMs have been widely studied for video question answering recently. However, most existing assessments focus on natural videos, overlooking synthetic videos, such as AI-generated content (AIGC). Meanwhile, some works in video generation rely on MLLMs to evaluate the quality of generated videos, but the capabilities of MLLMs on interpreting AIGC videos remain largely underexplored. To address this, we propose a new benchmark, VF-Eval, which introduces four tasks-coherence validation, error awareness, error type detection, and reasoning evaluation-to comprehensively evaluate the abilities of MLLMs on AIGC videos. We evaluate 13 frontier MLLMs on VF-Eval and find that even the best-performing model, GPT-4.1, struggles to achieve consistently good performance across all tasks. This highlights the challenging nature of our benchmark. Additionally, to investigate the practical applications of VF-Eval in improving video generation, we conduct an experiment, RePrompt, demonstrating that aligning MLLMs more closely with human feedback can benefit video generation.

arxiv情報

著者 Tingyu Song,Tongyan Hu,Guo Gan,Yilun Zhao
発行日 2025-05-29 17:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos はコメントを受け付けていません

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

要約

視覚的なプロンプトチューニング(VPT)は、ほとんどのモデルパラメーターを凍結させながら、部分的に微調整できる学習可能なトークンにより、視覚変圧器(VIT)モデルのパラメーター効率の高い微調整(PEFT)アプローチの有望なソリューションとなっています。
最近の研究では、プロンプトの接続構造の変更が検討されています。
ただし、プロンプトと画像トークンの間の基本的な相関と分布は未開拓のままです。
この論文では、メトリック学習手法を活用して、プロンプトの分布が微調整パフォーマンスにどのように影響するかを調査します。
具体的には、クラス関連のセマンティックデータから距離メトリックを学習することにより、プロンプトの分布を導くために、新しいフレームワーク、Distribution Aware Visual Prompt Tuning(DA-VPT)を提案します。
私たちの方法は、プロンプトが画像パッチとクラストークンの間で意味情報を共有するための効果的なブリッジとして機能できることを示しています。
認識タスクとセグメンテーションタスクの両方で、人気のあるベンチマークに関するアプローチを広範囲に評価しました。
結果は、私たちのアプローチが、セマンティック情報を活用してプロンプトの学習を導くことにより、VITモデルのより効果的で効率的な微調整を可能にし、さまざまな下流の視覚タスクのパフォーマンスの向上につながることを示しています。

要約(オリジナル)

Visual Prompt Tuning (VPT) has become a promising solution for Parameter-Efficient Fine-Tuning (PEFT) approach for Vision Transformer (ViT) models by partially fine-tuning learnable tokens while keeping most model parameters frozen. Recent research has explored modifying the connection structures of the prompts. However, the fundamental correlation and distribution between the prompts and image tokens remain unexplored. In this paper, we leverage metric learning techniques to investigate how the distribution of prompts affects fine-tuning performance. Specifically, we propose a novel framework, Distribution Aware Visual Prompt Tuning (DA-VPT), to guide the distributions of the prompts by learning the distance metric from their class-related semantic data. Our method demonstrates that the prompts can serve as an effective bridge to share semantic information between image patches and the class token. We extensively evaluated our approach on popular benchmarks in both recognition and segmentation tasks. The results demonstrate that our approach enables more effective and efficient fine-tuning of ViT models by leveraging semantic information to guide the learning of the prompts, leading to improved performance on various downstream vision tasks.

arxiv情報

著者 Li Ren,Chen Chen,Liqiang Wang,Kien Hua
発行日 2025-05-29 17:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers はコメントを受け付けていません

CLDTracker: A Comprehensive Language Description for Visual Tracking

要約

投票は、動的な外観の変化、閉塞、および背景乱れにより、コンピュータービジョンにおける根本的でありながら挑戦的なタスクです。
主に視覚的な手がかりに依存している伝統的なトラッカーは、しばしばそのような複雑なシナリオで苦労しています。
VLMSの最近の進歩は、オープンボキャブラリー検出や画像キャプションなどのタスクのセマンティック理解に有望であることを示しており、投票の可能性を示唆しています。
ただし、VLMが投票するための直接的な適用は、重大な制限によって妨げられます。ターゲットオブジェクトのニュアンスを意味的にキャプチャする豊富で包括的なテキスト表現がないこと、言語情報の効果的な使用が制限されます。
視覚的およびテキストの特徴を最適に統合し、ターゲットの全体的な理解を妨げない非効率的な融合メカニズム。
また、言語ドメインにおけるターゲットの進化する外観の時間モデリングの欠如により、初期記述とオブジェクトのその後の視覚的変化との間に切断されます。
これらのギャップを埋め、VLMの票を最大限に発揮するためのロックを解除するために、堅牢な視覚追跡のための新しい包括的な言語説明フレームワークであるCldtrackerを提案します。
トラッカーは、テキストとビジュアルブランチで構成されるデュアルブランチアーキテクチャを紹介します。
テキストブランチでは、ClipやGPT-4Vなどの強力なVLMを利用することで導き出されたテキストの説明の豊富な袋を構築し、豊富なテキスト表現の欠如に対処するためにセマンティックおよびコンテキストの手がかりを備えています。
6つの標準票ベンチマークでの実験は、CldtrackerがSOTAパフォーマンスを達成し、追跡のための堅牢で時間的に適応性のあるビジョン言語表現を活用することの有効性を検証することを示しています。
コードとモデルは、https://github.com/hamadya/cldtrackerで公開されています

要約(オリジナル)

VOT remains a fundamental yet challenging task in computer vision due to dynamic appearance changes, occlusions, and background clutter. Traditional trackers, relying primarily on visual cues, often struggle in such complex scenarios. Recent advancements in VLMs have shown promise in semantic understanding for tasks like open-vocabulary detection and image captioning, suggesting their potential for VOT. However, the direct application of VLMs to VOT is hindered by critical limitations: the absence of a rich and comprehensive textual representation that semantically captures the target object’s nuances, limiting the effective use of language information; inefficient fusion mechanisms that fail to optimally integrate visual and textual features, preventing a holistic understanding of the target; and a lack of temporal modeling of the target’s evolving appearance in the language domain, leading to a disconnect between the initial description and the object’s subsequent visual changes. To bridge these gaps and unlock the full potential of VLMs for VOT, we propose CLDTracker, a novel Comprehensive Language Description framework for robust visual Tracking. Our tracker introduces a dual-branch architecture consisting of a textual and a visual branch. In the textual branch, we construct a rich bag of textual descriptions derived by harnessing the powerful VLMs such as CLIP and GPT-4V, enriched with semantic and contextual cues to address the lack of rich textual representation. Experiments on six standard VOT benchmarks demonstrate that CLDTracker achieves SOTA performance, validating the effectiveness of leveraging robust and temporally-adaptive vision-language representations for tracking. Code and models are publicly available at: https://github.com/HamadYA/CLDTracker

arxiv情報

著者 Mohamad Alansari,Sajid Javed,Iyyakutti Iyappan Ganapathi,Sara Alansari,Muzammal Naseer
発行日 2025-05-29 17:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CLDTracker: A Comprehensive Language Description for Visual Tracking はコメントを受け付けていません

Satellite Imagery and AI: A New Era in Ocean Conservation, from Research to Deployment and Impact (Version. 2.0)

要約

違法で、報告されていない、規制されていない(IUU)釣りは、海洋生息地に対する世界的な脅威をもたらします。
NASA、欧州宇宙機関(ESA)、および米国地質調査所(USGS)が提供する公開されている衛星データは、この活動を積極的に監視する機会を提供します。
海上保護のための衛星データを効果的に活用するには、最小限の遅延で世界的に動作する非常に信頼性の高い機械学習モデルが必要です。
このペーパーでは、センチネル-1(合成開口レーダー)、センチネル2(光学画像)、ランドサット8-9(光学画像)、suomi-npp/noaa-20/noaa-21(夜間照明)など、さまざまなセンサー向けに設計された4つの特殊なコンピュータービジョンモデルを紹介します。
また、グローバルスケールのリアルタイム衛星ベースのコンピュータービジョンを開発および展開するためのベストプラクティスも提供します。
すべてのモデルは、許容ライセンスの下で開かれています。
これらのモデルはすべて、世界中のユーザーに無料で提供されるリアルタイムの海上監視プラットフォームであるSkylightに展開されています。

要約(オリジナル)

Illegal, unreported, and unregulated (IUU) fishing poses a global threat to ocean habitats. Publicly available satellite data offered by NASA, the European Space Agency (ESA), and the U.S. Geological Survey (USGS), provide an opportunity to actively monitor this activity. Effectively leveraging satellite data for maritime conservation requires highly reliable machine learning models operating globally with minimal latency. This paper introduces four specialized computer vision models designed for a variety of sensors including Sentinel-1 (synthetic aperture radar), Sentinel-2 (optical imagery), Landsat 8-9 (optical imagery), and Suomi-NPP/NOAA-20/NOAA-21 (nighttime lights). It also presents best practices for developing and deploying global-scale real-time satellite based computer vision. All of the models are open sourced under permissive licenses. These models have all been deployed in Skylight, a real-time maritime monitoring platform, which is provided at no cost to users worldwide.

arxiv情報

著者 Patrick Beukema,Favyen Bastani,Yawen Zheng,Piper Wolters,Henry Herzog,Joe Ferdinando
発行日 2025-05-29 17:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Satellite Imagery and AI: A New Era in Ocean Conservation, from Research to Deployment and Impact (Version. 2.0) はコメントを受け付けていません

Skin Lesion Phenotyping via Nested Multi-modal Contrastive Learning

要約

画像とメタデータの間の複雑な関係を捉える新しいネストされたコントラスト学習アプローチを通じて、皮膚病変の豊富な表現を学習するためのスリンプ(皮膚病変の画像メタデータ前トレーニング)を紹介します。
メラノーマの検出と皮膚病変の分類は、画像のみに基づいており、画像条件(照明、色、解像度、距離など)の大きなばらつきと臨床的および表現型の文脈の欠如により、重大な課題を引き起こします。
臨床医は通常、患者の病歴と患者の他の病変の出現を考慮することにより、患者のリスクレベルを評価し、どの病変が悪性であるかを切除する必要があるかを決定するために、全体的なアプローチに従います。
これに触発されたスリンプは、個々の皮膚病変の外観とメタデータと、医療記録やその他の臨床的に関連する情報に関連する患者レベルのメタデータを組み合わせています。
学習プロセス全体で利用可能なすべてのデータモダリティを完全に活用することにより、提案されたトレーニング前戦略は、学習表現の品質を強調する下流の皮膚病変分類タスクに関する他のトレーニング前戦略と比較してパフォーマンスを改善します。

要約(オリジナル)

We introduce SLIMP (Skin Lesion Image-Metadata Pre-training) for learning rich representations of skin lesions through a novel nested contrastive learning approach that captures complex relationships between images and metadata. Melanoma detection and skin lesion classification based solely on images, pose significant challenges due to large variations in imaging conditions (lighting, color, resolution, distance, etc.) and lack of clinical and phenotypical context. Clinicians typically follow a holistic approach for assessing the risk level of the patient and for deciding which lesions may be malignant and need to be excised, by considering the patient’s medical history as well as the appearance of other lesions of the patient. Inspired by this, SLIMP combines the appearance and the metadata of individual skin lesions with patient-level metadata relating to their medical record and other clinically relevant information. By fully exploiting all available data modalities throughout the learning process, the proposed pre-training strategy improves performance compared to other pre-training strategies on downstream skin lesions classification tasks highlighting the learned representations quality.

arxiv情報

著者 Dionysis Christopoulos,Sotiris Spanos,Eirini Baltzi,Valsamis Ntouskos,Konstantinos Karantzalos
発行日 2025-05-29 17:42:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Skin Lesion Phenotyping via Nested Multi-modal Contrastive Learning はコメントを受け付けていません

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

要約

非調整された画像コレクションからの新しいビュー合成のためのフィードフォワードネットワークであるAnySplatを紹介します。
既知のカメラのポーズとシーンごとの最適化を要求する従来のニューラルレンダリングパイプライン、または密なビューの計算重量の下で屈する最近のフィードフォワードメソッドとは対照的に、モデルはすべてを1つのショットで予測します。
単一のフォワードパスは、シーンのジオメトリと外観の両方をコードする3Dガウスプリミティブのセット、および各入力画像の対応するカメラの内在性と外因性を生成します。
この統一された設計は、何らかのポーズ注釈なしで、さりげなくキャプチャしてマルチビューデータセットをキャプチャして簡単に拡大します。
広範なゼロショット評価では、AnySplatは、既存のポーズフリーアプローチを上回りながら、まばらなビューシナリオと密度の高いビューシナリオのポーズ認識ベースラインの品質と一致します。
さらに、最適化ベースのニューラルフィールドと比較してレンダリングのレイニングを大幅に削減し、制約のないキャプチャ設定のリーチ内でリアルタイムの新しいビューシンシシスをもたらします。

要約(オリジナル)

We introduce AnySplat, a feed forward network for novel view synthesis from uncalibrated image collections. In contrast to traditional neural rendering pipelines that demand known camera poses and per scene optimization, or recent feed forward methods that buckle under the computational weight of dense views, our model predicts everything in one shot. A single forward pass yields a set of 3D Gaussian primitives encoding both scene geometry and appearance, and the corresponding camera intrinsics and extrinsics for each input image. This unified design scales effortlessly to casually captured, multi view datasets without any pose annotations. In extensive zero shot evaluations, AnySplat matches the quality of pose aware baselines in both sparse and dense view scenarios while surpassing existing pose free approaches. Moreover, it greatly reduce rendering latency compared to optimization based neural fields, bringing real time novel view synthesis within reach for unconstrained capture settings.Project page: https://city-super.github.io/anysplat/

arxiv情報

著者 Lihan Jiang,Yucheng Mao,Linning Xu,Tao Lu,Kerui Ren,Yichen Jin,Xudong Xu,Mulin Yu,Jiangmiao Pang,Feng Zhao,Dahua Lin,Bo Dai
発行日 2025-05-29 17:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views はコメントを受け付けていません

FMG-Det: Foundation Model Guided Robust Object Detection

要約

オブジェクトの境界をラベル付けする際の固有の主観性のため、オブジェクト検出タスクの高品質データを収集することは困難です。
これにより、データセット全体で一貫した注釈を収集するだけでなく、それらを検証することも困難になります。これは、まったく同じ座標を使用して同じオブジェクトにラベルを付ける可能性が2つないためです。
これらの課題は、オブジェクトの境界が部分的に見えるかぼやけている場合にさらに悪化します。これは、多くのドメインで当てはまる可能性があります。
ノイズの多い注釈のトレーニングは、検出器の性能を大幅に低下させ、特に少数のショット設定で使用できません。
この作業では、騒々しい注釈を持つトレーニングモデルのためのシンプルで効率的な方法論であるFMG-DETを提案します。
より具体的には、複数のインスタンス学習(MIL)フレームワークと、トレーニング前にラベルを修正するための強力な基礎モデルを活用する前処理パイプラインと組み合わせることを提案します。
この前処理パイプラインは、検出器ヘッドのわずかな変更とともに、標準的なシナリオと少数のシナリオの両方で、多くのデータセットにわたって最先端のパフォーマンスをもたらし、他のアプローチよりもはるかにシンプルで効率的です。

要約(オリジナル)

Collecting high quality data for object detection tasks is challenging due to the inherent subjectivity in labeling the boundaries of an object. This makes it difficult to not only collect consistent annotations across a dataset but also to validate them, as no two annotators are likely to label the same object using the exact same coordinates. These challenges are further compounded when object boundaries are partially visible or blurred, which can be the case in many domains. Training on noisy annotations significantly degrades detector performance, rendering them unusable, particularly in few-shot settings, where just a few corrupted annotations can impact model performance. In this work, we propose FMG-Det, a simple, efficient methodology for training models with noisy annotations. More specifically, we propose combining a multiple instance learning (MIL) framework with a pre-processing pipeline that leverages powerful foundation models to correct labels prior to training. This pre-processing pipeline, along with slight modifications to the detector head, results in state-of-the-art performance across a number of datasets, for both standard and few-shot scenarios, while being much simpler and more efficient than other approaches.

arxiv情報

著者 Darryl Hannan,Timothy Doster,Henry Kvinge,Adam Attarian,Yijing Watkins
発行日 2025-05-29 17:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FMG-Det: Foundation Model Guided Robust Object Detection はコメントを受け付けていません

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

要約

既存の推論セグメンテーションアプローチは、通常、画像テキストペアと対応するマスクラベルを使用して、マルチモーダル大手言語モデル(MLLMS)を微調整します。
ただし、明示的な推論プロセスなしに、分散型のシナリオに限られた一般化を示します。
最近の取り組みは、推論能力を高めるためにグループ相関政策最適化(GRPO)を通じて強化学習を活用していますが、しばしば考え過ぎに苦しみます。
これにより、計算コストが上昇し、推論品質に対する制御が制限されます。
この問題に対処するために、Pixelthinkを提案します。PixelThinkは、外部で推定されたタスクの難易度と内部的に測定されたモデルの不確実性を統合して、強化学習パラダイム内の推論生成を調節するシンプルで効果的なスキームです。
このモデルは、シーンの複雑さと予測的信頼度に従って、推論長を圧縮することを学びます。
包括的な評価をサポートするために、注釈付きの推論参照と難易度スコアを備えた拡張ベンチマークであるReasonSeg-diffと、セグメンテーションの精度、推論品質、効率を共同で評価するために設計された一連のメトリックを紹介します。
実験結果は、提案されたアプローチが推論効率と全体的なセグメンテーションパフォーマンスの両方を改善することを示しています。
私たちの仕事は、効率的で解釈可能なマルチモーダルの理解に向けた新しい視点に貢献しています。
コードとモデルは公開されます。

要約(オリジナル)

Existing reasoning segmentation approaches typically fine-tune multimodal large language models (MLLMs) using image-text pairs and corresponding mask labels. However, they exhibit limited generalization to out-of-distribution scenarios without an explicit reasoning process. Although recent efforts leverage reinforcement learning through group-relative policy optimization (GRPO) to enhance reasoning ability, they often suffer from overthinking – producing uniformly verbose reasoning chains irrespective of task complexity. This results in elevated computational costs and limited control over reasoning quality. To address this problem, we propose PixelThink, a simple yet effective scheme that integrates externally estimated task difficulty and internally measured model uncertainty to regulate reasoning generation within a reinforcement learning paradigm. The model learns to compress reasoning length in accordance with scene complexity and predictive confidence. To support comprehensive evaluation, we introduce ReasonSeg-Diff, an extended benchmark with annotated reasoning references and difficulty scores, along with a suite of metrics designed to assess segmentation accuracy, reasoning quality, and efficiency jointly. Experimental results demonstrate that the proposed approach improves both reasoning efficiency and overall segmentation performance. Our work contributes novel perspectives towards efficient and interpretable multimodal understanding. The code and model will be publicly available.

arxiv情報

著者 Song Wang,Gongfan Fang,Lingdong Kong,Xiangtai Li,Jianyun Xu,Sheng Yang,Qiang Li,Jianke Zhu,Xinchao Wang
発行日 2025-05-29 17:55:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | PixelThink: Towards Efficient Chain-of-Pixel Reasoning はコメントを受け付けていません

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

要約

フィードフォワード3Dガウススプラッティング(3DGS)モデルは最近、新しいビュー合成の有望なソリューションとして浮上し、シーンごとの3DGS最適化を必要とせずにワンパス推論を可能にします。
ただし、それらのスケーラビリティは、エンコーダーの限られた容量によって根本的に制約されており、入力ビューの数が増えるにつれて、パフォーマンスが低下したり、過度のメモリ消費量になります。
この作業では、情報ボトルネック原理のレンズを介してフィードフォワード3DGSフレームワークを分析し、Zpressorを導入します。これは、マルチビュー入力の効率的な圧縮をコンパクトな潜在状態$ Z $に効率的に圧縮することを可能にし、不可欠なシーン情報を保持しながら、リダンスを捨てます。
具体的には、Zpressorは、既存のフィードフォワード3DGSモデルを、80GB GPUの480p解像度で480p解像度で100を超える入力ビューにスケーリングできます。ビューをアンカーとサポートセットに分割し、サポートビューから情報をアンカービューに圧縮し、圧縮された潜在状態$ Z $を形成することにより、100を超える入力ビューにスケーリングできます。
ZPressorをいくつかの最先端のフィードフォワード3DGSモデルに統合すると、中程度の入力ビューの下でのパフォーマンスが一貫して改善され、2つの大規模なベンチマークDL3DV-10KとRealestate10Kの密なビュー設定の下で堅牢性が向上することを示します。
ビデオの結果、コード、トレーニングモデルは、プロジェクトページhttps://lhmd.top/zpressorで入手できます。

要約(オリジナル)

Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a promising solution for novel view synthesis, enabling one-pass inference without the need for per-scene 3DGS optimization. However, their scalability is fundamentally constrained by the limited capacity of their encoders, leading to degraded performance or excessive memory consumption as the number of input views increases. In this work, we analyze feed-forward 3DGS frameworks through the lens of the Information Bottleneck principle and introduce ZPressor, a lightweight architecture-agnostic module that enables efficient compression of multi-view inputs into a compact latent state $Z$ that retains essential scene information while discarding redundancy. Concretely, ZPressor enables existing feed-forward 3DGS models to scale to over 100 input views at 480P resolution on an 80GB GPU, by partitioning the views into anchor and support sets and using cross attention to compress the information from the support views into anchor views, forming the compressed latent state $Z$. We show that integrating ZPressor into several state-of-the-art feed-forward 3DGS models consistently improves performance under moderate input views and enhances robustness under dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K. The video results, code and trained models are available on our project page: https://lhmd.top/zpressor.

arxiv情報

著者 Weijie Wang,Donny Y. Chen,Zeyu Zhang,Duochao Shi,Akide Liu,Bohan Zhuang
発行日 2025-05-29 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS はコメントを受け付けていません