HEMGS: A Hybrid Entropy Model for 3D Gaussian Splatting Data Compression

要約

この作業では、3Dガウススプラッティング(3DG)データの新しい圧縮フレームワークを提案します。
アンカーベースの3DGS方法論に基づいて、私たちのアプローチは、ハイブリッドの損失のない圧縮を実現するために、3Dガウススプラッティング(HEMG)の新しいハイブリッドエントロピーモデルを導入することにより、各アンカー内のすべての属性を圧縮します。
これは、3つの主要なコンポーネントで構成されています。可変レート予測子、高度なネットワーク、および自己回帰ネットワークです。
第一に、複数のモデルを採用してマルチレートの損失のある圧縮を達成する以前の方法とは異なり、トレーニングオーバーヘッドを増加させると、可変レート予測子は、単一のモデルとハイパーパラメーター$ \ lambda $を使用して可変レート圧縮を可能にします。
第二に、ロスレス圧縮を改善するために、ハイパープライアネットワークはシーンに依存しない機能とシーン固有の機能の両方をキャプチャして以前の機能を生成しますが、自動回復ネットワークは、柔軟な受容フィールドを備えた適応コンテキスト選択アルゴリズムを採用してコンテキスト機能を生成します。
これら2つの機能を統合することにより、HEMGは各属性内の現在のコーディング要素の分布を正確に推定し、エントロピーコーディングの改善とストレージの削減を可能にします。
HEMGを圧縮フレームワークに統合し、4つのベンチマークでの実験結果は、HEMGがベースライン方法よりもレンダリング品質を維持し、最先端の圧縮結果を達成しながら、サイズが約40%の平均減少を達成することを示しています。

要約(オリジナル)

In this work, we propose a novel compression framework for 3D Gaussian Splatting (3DGS) data. Building on anchor-based 3DGS methodologies, our approach compresses all attributes within each anchor by introducing a novel Hybrid Entropy Model for 3D Gaussian Splatting (HEMGS) to achieve hybrid lossy-lossless compression. It consists of three main components: a variable-rate predictor, a hyperprior network, and an autoregressive network. First, unlike previous methods that adopt multiple models to achieve multi-rate lossy compression, thereby increasing training overhead, our variable-rate predictor enables variable-rate compression with a single model and a hyperparameter $\lambda$ by producing a learned Quantization Step feature for versatile lossy compression. Second, to improve lossless compression, the hyperprior network captures both scene-agnostic and scene-specific features to generate a prior feature, while the autoregressive network employs an adaptive context selection algorithm with flexible receptive fields to produce a contextual feature. By integrating these two features, HEMGS can accurately estimate the distribution of the current coding element within each attribute, enabling improved entropy coding and reduced storage. We integrate HEMGS into a compression framework, and experimental results on four benchmarks indicate that HEMGS achieves about a 40% average reduction in size while maintaining rendering quality over baseline methods and achieving state-of-the-art compression results.

arxiv情報

著者 Lei Liu,Zhenghao Chen,Wei Jiang,Wei Wang,Dong Xu
発行日 2025-04-22 13:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HEMGS: A Hybrid Entropy Model for 3D Gaussian Splatting Data Compression はコメントを受け付けていません

Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions

要約

指導ビデオ内に特定のセグメントを見つけることは、ガイド知識を習得するための効率的な方法です。
一般的に、言語の説明と視覚的デモの両方のビデオセグメントを取得するタスクは、視覚回答のローカリゼーション(VAL)として知られています。
ただし、ユーザーは、システムを使用するときに期待に合わせた回答を得るために複数のインタラクションを必要とすることがよくあります。
これらの相互作用中、人間は自分自身に質問をすることでビデオコンテンツの理解を深め、それによって場所を正確に識別します。
したがって、視覚的な答えを得る手順で、人間とビデオの間の複数の相互作用をシミュレートするために、in-valという名前の新しいタスクを提案します。
VALタスクでは、1)入力質問のユーザー意図のあいまいさ、2)ビデオ字幕の言語の不完全性、および3)ビデオセグメントのコンテンツの断片化を含む、いくつかのセマンティックギャップの問題にインタラクティブに対処する必要があります。
これらの問題に対処するために、質問をすることでValを解決するためのフレームワークであるAsk2Locを提案します。
3つの重要なモジュールが含まれています。1)最初の質問を改良し、明確な意図を明らかにするチャットモジュール、2)流fluent言語を生成して完全な説明を作成する書き換えモジュール、3)ローカルコンテキストを広げて統合コンテンツを提供する検索モジュール。
3つの再構築されたVALデータセットで広範な実験を実施します。
従来のエンドツーエンドおよび2段階の方法と比較して、提案されたASK2LOCは、VALタスクでパフォーマンスを最大14.91(MIOU)増加させることができます。
コードとデータセットには、https://github.com/changzong/ask2locでアクセスできます。

要約(オリジナル)

Locating specific segments within an instructional video is an efficient way to acquire guiding knowledge. Generally, the task of obtaining video segments for both verbal explanations and visual demonstrations is known as visual answer localization (VAL). However, users often need multiple interactions to obtain answers that align with their expectations when using the system. During these interactions, humans deepen their understanding of the video content by asking themselves questions, thereby accurately identifying the location. Therefore, we propose a new task, named In-VAL, to simulate the multiple interactions between humans and videos in the procedure of obtaining visual answers. The In-VAL task requires interactively addressing several semantic gap issues, including 1) the ambiguity of user intent in the input questions, 2) the incompleteness of language in video subtitles, and 3) the fragmentation of content in video segments. To address these issues, we propose Ask2Loc, a framework for resolving In-VAL by asking questions. It includes three key modules: 1) a chatting module to refine initial questions and uncover clear intentions, 2) a rewriting module to generate fluent language and create complete descriptions, and 3) a searching module to broaden local context and provide integrated content. We conduct extensive experiments on three reconstructed In-VAL datasets. Compared to traditional end-to-end and two-stage methods, our proposed Ask2Loc can improve performance by up to 14.91 (mIoU) on the In-VAL task. Our code and datasets can be accessed at https://github.com/changzong/Ask2Loc.

arxiv情報

著者 Chang Zong,Bin Li,Shoujun Zhou,Jian Wan,Lei Zhang
発行日 2025-04-22 14:03:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T20, 68T45, cs.AI, cs.CV, cs.HC | Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions はコメントを受け付けていません

ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

要約

VISMAP:監視されていないビデオ要約によるメタプロンプト、1時間の長さのビデオを要約しないシステムを紹介します。
ほとんどの既存のビデオ理解モデルは、事前にセグメント化されたイベントの短いビデオでうまく機能しますが、関連するイベントがまばらに配布され、事前に分割されていないより長いビデオを要約するのに苦労しています。
さらに、長い形式のビデオ理解は、多くの場合、費用がかかり、ゆっくりと矛盾が生じる広範な注釈が必要な、監視された階層的トレーニングに依存しています。
Vismapを使用すると、短いビデオ(注釈付きデータが豊富な)と長いビデオ(そうでない場合)の間のギャップを埋めます。
LLMSに依存して、短いものからのセグメントの説明を使用して、長いビデオの最適化された擬似スマーを作成します。
これらの擬似サマリーは、長いビデオの概要を生成するモデルのトレーニングデータとして使用され、長いビデオの高価な注釈の必要性をバイパスします。
具体的には、メタ促進戦略を採用して、長いビデオの擬似サマリーを作成するのを繰り返し生成および改良します。
この戦略は、要約を導くために、監視された短いビデオモデルから得られた短いクリップの説明を活用します。
各反復では、順番に動作する3つのLLMを使用します。1つはクリップ説明から擬似スマリーを生成し、もう1つは評価し、3つ目は発電機のプロンプトを最適化します。
擬似サマーの品質はジェネレータープロンプトに大きく依存しており、ビデオ間で大きく異なるため、この反復が必要です。
複数のデータセットで概要を広範囲に評価します。
私たちの結果は、VISMAPが完全に監視された最先端のモデルに匹敵するパフォーマンスを達成し、パフォーマンスを犠牲にすることなくドメイン全体で一般化することを示しています。
コードは公開時にリリースされます。

要約(オリジナル)

We introduce ViSMap: Unsupervised Video Summarisation by Meta Prompting, a system to summarise hour long videos with no-supervision. Most existing video understanding models work well on short videos of pre-segmented events, yet they struggle to summarise longer videos where relevant events are sparsely distributed and not pre-segmented. Moreover, long-form video understanding often relies on supervised hierarchical training that needs extensive annotations which are costly, slow and prone to inconsistency. With ViSMaP we bridge the gap between short videos (where annotated data is plentiful) and long ones (where it’s not). We rely on LLMs to create optimised pseudo-summaries of long videos using segment descriptions from short ones. These pseudo-summaries are used as training data for a model that generates long-form video summaries, bypassing the need for expensive annotations of long videos. Specifically, we adopt a meta-prompting strategy to iteratively generate and refine creating pseudo-summaries of long videos. The strategy leverages short clip descriptions obtained from a supervised short video model to guide the summary. Each iteration uses three LLMs working in sequence: one to generate the pseudo-summary from clip descriptions, another to evaluate it, and a third to optimise the prompt of the generator. This iteration is necessary because the quality of the pseudo-summaries is highly dependent on the generator prompt, and varies widely among videos. We evaluate our summaries extensively on multiple datasets; our results show that ViSMaP achieves performance comparable to fully supervised state-of-the-art models while generalising across domains without sacrificing performance. Code will be released upon publication.

arxiv情報

著者 Jian Hu,Dimitrios Korkinof,Shaogang Gong,Mariano Beguerisse-Diaz
発行日 2025-04-22 14:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting はコメントを受け付けていません

A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers

要約

人工知能(AI)は、医療イメージング診断において顕著な可能性を示していますが、現在のモデルは通常、さまざまな臨床センターに展開された場合に再訓練を必要とし、広範な採用を制限します。
再訓練/微調整または技術的な専門知識なしに眼疾患の診断を可能にする臨床医に優しいAIプラットフォームであるGlobereadyを紹介します。
Globereadyは、イメージングモダリティ全体で高い精度を達成します。11カテゴリのFundus Photo Datasetで93.9-98.5%、15カテゴリOCTデータセットで87.2-92.7%。
トレーニングフリーのローカルフィーチャの増強を通じて、センターと個体群間のドメインシフトに対処し、中国の5つのセンターで88.9%、ベトナムで86.3%、英国で90.2%の平均精度に達します。
組み込みの信頼性定量化可能な診断アプローチは、86.3%(49 CFPカテゴリ)および90.6%(OCTカテゴリ13)で分散症状を特定しながら、94.9-99.4%(眼底)および88.2-96.2%(OCT)に精度をさらに高めました。
複数の国の臨床医は、その使いやすさと臨床的関連性についてGlobereadyを高く評価していました(5分の4のうち4.6)。
これらの結果は、Globereadyの堅牢でスケーラブルな診断能力と、技術的な障壁なしで眼科ケアをサポートする可能性を示しています。

要約(オリジナル)

Artificial intelligence (AI) shows remarkable potential in medical imaging diagnostics, but current models typically require retraining when deployed across different clinical centers, limiting their widespread adoption. We introduce GlobeReady, a clinician-friendly AI platform that enables ocular disease diagnosis without retraining/fine-tuning or technical expertise. GlobeReady achieves high accuracy across imaging modalities: 93.9-98.5% for an 11-category fundus photo dataset and 87.2-92.7% for a 15-category OCT dataset. Through training-free local feature augmentation, it addresses domain shifts across centers and populations, reaching an average accuracy of 88.9% across five centers in China, 86.3% in Vietnam, and 90.2% in the UK. The built-in confidence-quantifiable diagnostic approach further boosted accuracy to 94.9-99.4% (fundus) and 88.2-96.2% (OCT), while identifying out-of-distribution cases at 86.3% (49 CFP categories) and 90.6% (13 OCT categories). Clinicians from multiple countries rated GlobeReady highly (average 4.6 out of 5) for its usability and clinical relevance. These results demonstrate GlobeReady’s robust, scalable diagnostic capability and potential to support ophthalmic care without technical barriers.

arxiv情報

著者 Meng Wang,Tian Lin,Qingshan Hou,Aidi Lin,Jingcheng Wang,Qingsheng Peng,Truong X. Nguyen,Danqi Fang,Ke Zou,Ting Xu,Cancan Xue,Ten Cheer Quek,Qinkai Yu,Minxin Liu,Hui Zhou,Zixuan Xiao,Guiqin He,Huiyu Liang,Tingkun Shi,Man Chen,Linna Liu,Yuanyuan Peng,Lianyu Wang,Qiuming Hu,Junhong Chen,Zhenhua Zhang,Cheng Chen,Yitian Zhao,Dianbo Liu,Jianhua Wu,Xinjian Chen,Changqing Zhang,Triet Thanh Nguyen,Yanda Meng,Yalin Zheng,Yih Chung Tham,Carol Y. Cheung,Huazhu Fu,Haoyu Chen,Ching-Yu Cheng
発行日 2025-04-22 14:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers はコメントを受け付けていません

Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models

要約

診断イメージングは​​、画像と放射線レポートの両方の解釈に依存していますが、データ量の増加は医療専門家に大きな圧力をかけ、エラーとワークフローのバックログの増加をもたらします。
Medical Vision-Languageモデル(MED-VLMS)は、特に胸部X線(CXR)評価でマルチモーダルイメージングデータを効率的に処理する強力なフレームワークとして浮上しています。
主に対照的な学習に基づいている既存のアライメント方法は、場所、サイズ、または重症度などの細かい病理属性の分離をめぐる疾患クラス間の分離を優先し、最適ではない表現につながります。
ここでは、Medtrim(メタエンティティ駆動型のトリプレットマイニング)を提案します。これは、疾患クラスと形容詞および方向性病理記述子によって相乗的に導かれるマルチモーダルトリプレット学習を通じて画像テキストアライメントを強化する新しい方法です。
広い疾患クラスを分離する一般的なアライメント方法とは異なり、Medtrimは構造化されたメタエンティティ情報を活用して、微妙ではあるが臨床的に有意なクラス内変動を維持します。
この目的のために、CXRレポートから病理学固有のメタエンティティを抽出するオントロジーベースのエンティティ認識モジュールを導入します。病理属性に関する注釈は公共データセットではまれであるためです。
トリプレットマイニングでの洗練されたサンプル選択のために、疾患クラスと形容詞/方向記述子に基づいて、サンプル間類似性の総尺度をキャプチャする新しいスコア関数を導入します。
最後に、詳細な病理特性を共有するサンプル間の明示的な内側およびクロスモーダルアライメントのために、マルチモーダルトリプレットアライメント目標を導入します。
私たちのデモンストレーションは、Medtrimが最先端のアライメント方法と比較して、下流の検索および分類タスクのパフォーマンスを改善することを示しています。

要約(オリジナル)

Diagnostic imaging relies on interpreting both images and radiology reports, but the growing data volumes place significant pressure on medical experts, yielding increased errors and workflow backlogs. Medical vision-language models (med-VLMs) have emerged as a powerful framework to efficiently process multimodal imaging data, particularly in chest X-ray (CXR) evaluations, albeit their performance hinges on how well image and text representations are aligned. Existing alignment methods, predominantly based on contrastive learning, prioritize separation between disease classes over segregation of fine-grained pathology attributes like location, size or severity, leading to suboptimal representations. Here, we propose MedTrim (Meta-entity-driven Triplet mining), a novel method that enhances image-text alignment through multimodal triplet learning synergistically guided by disease class as well as adjectival and directional pathology descriptors. Unlike common alignment methods that separate broad disease classes, MedTrim leverages structured meta-entity information to preserve subtle but clinically significant intra-class variations. For this purpose, we first introduce an ontology-based entity recognition module that extracts pathology-specific meta-entities from CXR reports, as annotations on pathology attributes are rare in public datasets. For refined sample selection in triplet mining, we then introduce a novel score function that captures an aggregate measure of inter-sample similarity based on disease classes and adjectival/directional descriptors. Lastly, we introduce a multimodal triplet alignment objective for explicit within- and cross-modal alignment between samples sharing detailed pathology characteristics. Our demonstrations indicate that MedTrim improves performance in downstream retrieval and classification tasks compared to state-of-the-art alignment methods.

arxiv情報

著者 Saban Ozturk,Melih B. Yilmaz,Muti Kara,M. Talat Yavuz,Aykut Koç,Tolga Çukur
発行日 2025-04-22 14:17:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models はコメントを受け付けていません

Benchmarking the Reproducibility of Brain MRI Segmentation Across Scanners and Time

要約

構造MRIからの正確で再現可能な脳の形態計​​測は、時間とイメージングドメイン全体で神経解剖学的変化を監視するために重要です。
ディープラーニングはセグメンテーションワークフローを加速していますが、スキャナー誘発性の変動性と再現性の制限は、特に縦方向およびマルチサイトの設定に残っています。
この研究では、ニューロイメージングで最も広く採用されているツールの1つであるFreesurferに統合された2つの最新のセグメンテーションパイプライン、FastSurferとSynthsegをベンチマークします。
2つの補完的なデータセットを使用して、17年間の縦方向コホート(Simon)と9サイトのテスト再テストコホート(SRPBS) – ダイス係数、表面ダイス、HD95)、および平均絶対パーセンテージ誤差(MAPE)を使用して、スキャン間セグメンテーションの変動を定量化します。
我々の結果は、制御されたテストと再テスト条件下でさえ、扁桃体や腹側筋障害性症などの小さな皮質構造の最大7〜8%の体積変動を明らかにしています。
これは重要な疑問を提起します。ドメイン誘導の形態計測ノイズの大きさを考えると、エンドウ豆サイズの脳領域で5〜10%の範囲で微妙な縦方向の変化を検出することが可能ですか?
さらに、登録テンプレートと補間モードの効果を分析し、セグメンテーションの信頼性を向上させるために表面ベースの品質フィルタリングを提案します。
この研究は、形態計測の再現性の再現性のあるベンチマークを提供し、実際の神経画像研究における調和戦略の必要性を強調しています。
コードと図:https://github.com/kondratevakate/brain-mri-segmentation

要約(オリジナル)

Accurate and reproducible brain morphometry from structural MRI is critical for monitoring neuroanatomical changes across time and across imaging domains. Although deep learning has accelerated segmentation workflows, scanner-induced variability and reproducibility limitations remain-especially in longitudinal and multi-site settings. In this study, we benchmark two modern segmentation pipelines, FastSurfer and SynthSeg, both integrated into FreeSurfer, one of the most widely adopted tools in neuroimaging. Using two complementary datasets – a 17-year longitudinal cohort (SIMON) and a 9-site test-retest cohort (SRPBS)-we quantify inter-scan segmentation variability using Dice coefficient, Surface Dice, Hausdorff Distance (HD95), and Mean Absolute Percentage Error (MAPE). Our results reveal up to 7-8% volume variation in small subcortical structures such as the amygdala and ventral diencephalon, even under controlled test-retest conditions. This raises a key question: is it feasible to detect subtle longitudinal changes on the order of 5-10% in pea-sized brain regions, given the magnitude of domain-induced morphometric noise? We further analyze the effects of registration templates and interpolation modes, and propose surface-based quality filtering to improve segmentation reliability. This study provides a reproducible benchmark for morphometric reproducibility and emphasizes the need for harmonization strategies in real-world neuroimaging studies. Code and figures: https://github.com/kondratevakate/brain-mri-segmentation

arxiv情報

著者 Ekaterina Kondrateva,Sandzhi Barg,Mikhail Vasiliev
発行日 2025-04-22 14:20:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking the Reproducibility of Brain MRI Segmentation Across Scanners and Time はコメントを受け付けていません

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

要約

ビデオ生成の最近の進歩にもかかわらず、物理的法則を順守するビデオの制作は依然として大きな課題です。
従来の拡散ベースの方法は、データ駆動型の近似に依存しているため、目に見えない物理的条件(速度)に外挿するのに苦労しています。
これに対処するために、ビデオ生成における物理的な一貫性を実施するために、象徴的な推論と強化学習を統合することを提案します。
最初に、拡散プロセス中に失われた視覚属性を回復することにより、離散的で再帰的な視覚トークンを学習する拡散タイムステップトークン剤(DDT)を紹介します。
再帰的な視覚トークンは、大規模な言語モデルによる象徴的な推論を可能にします。
それに基づいて、2つの段階で構成されるPhys-ARフレームワークを提案します。最初の段階では、監視された微調整を使用して象徴的な知識を転送しますが、第2段階では、物理的条件に基づいた報酬機能を通じてモデルの推論能力を最適化するために強化学習を適用します。
私たちのアプローチにより、モデルは生成されたビデオの物理的特性を動的に調整および改善し、物理法則を順守することができます。
実験結果は、物理学が物理的に一貫性のあるビデオを生成できることを示しています。

要約(オリジナル)

Despite recent progress in video generation, producing videos that adhere to physical laws remains a significant challenge. Traditional diffusion-based methods struggle to extrapolate to unseen physical conditions (eg, velocity) due to their reliance on data-driven approximations. To address this, we propose to integrate symbolic reasoning and reinforcement learning to enforce physical consistency in video generation. We first introduce the Diffusion Timestep Tokenizer (DDT), which learns discrete, recursive visual tokens by recovering visual attributes lost during the diffusion process. The recursive visual tokens enable symbolic reasoning by a large language model. Based on it, we propose the Phys-AR framework, which consists of two stages: The first stage uses supervised fine-tuning to transfer symbolic knowledge, while the second stage applies reinforcement learning to optimize the model’s reasoning abilities through reward functions based on physical conditions. Our approach allows the model to dynamically adjust and improve the physical properties of generated videos, ensuring adherence to physical laws. Experimental results demonstrate that PhysAR can generate videos that are physically consistent.

arxiv情報

著者 Wang Lin,Liyu Jia,Wentao Hu,Kaihang Pan,Zhongqi Yue,Wei Zhao,Jingyuan Chen,Fei Wu,Hanwang Zhang
発行日 2025-04-22 14:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning はコメントを受け付けていません

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

要約

プロンプトは、特定のタスクの言語およびビジョンファンデーションモデルの力を解き放つ上で重要な役割を果たします。
初めて、深さの基礎モデルへの促しを導入し、迅速な深さと呼ばれるメトリック深度推定の新しいパラダイムを作成します。
具体的には、低コストのLIDARをプロンプトとして使用して、最大4Kの解像度を達成し、正確なメートルート深度出力のモデルを深くガイドします。
私たちのアプローチは、深さデコーダー内の複数のスケールでLidarを統合する簡潔なプロンプトフュージョン設計に集中しています。
LIDARの深さと正確なGT深さの両方を含む限られたデータセットによってもたらされるトレーニングの課題に対処するために、合成データLIDARシミュレーションと実際のデータ疑似GT深度生成を含むスケーラブルなデータパイプラインを提案します。
私たちのアプローチは、ArkitscenesとScannet ++データセットに新しい最先端を設定し、3D再構成や一般化されたロボット把握など、ダウンストリームアプリケーションに利益をもたらします。

要約(オリジナル)

Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. Our approach sets new state-of-the-arts on the ARKitScenes and ScanNet++ datasets and benefits downstream applications, including 3D reconstruction and generalized robotic grasping.

arxiv情報

著者 Haotong Lin,Sida Peng,Jingxiao Chen,Songyou Peng,Jiaming Sun,Minghuan Liu,Hujun Bao,Jiashi Feng,Xiaowei Zhou,Bingyi Kang
発行日 2025-04-22 14:42:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation はコメントを受け付けていません

Talk is Not Always Cheap: Promoting Wireless Sensing Models with Text Prompts

要約

WiFi、ミリメートル波(MMWAVE)レーダー、無線周波数識別(RFID)などのワイヤレス信号ベースのヒトセンシング技術は、人間の存在、姿勢、活動の検出と解釈を可能にし、それにより公共セキュリティ、ヘルスケア、スマートな環境におけるアプリケーションの重要なサポートを提供します。
これらの技術は、非接触操作と環境適応性のために顕著な利点を示します。
ただし、既存のシステムは、データセットに固有のテキスト情報を活用できないことがよくあります。
これに対処するために、3つの階層的な迅速な戦略ラベルのみを通じてセマンティックな知識をシームレスに統合する革新的なテキスト強化ワイヤレスセンシングフレームワークを提案します。
このフレームワークは、3つのパブリックベンチマークデータセットで厳密に検証します:XRF55 Human Action Autedation(HAR)、およびWiFiの時間的アクションローカリゼーション(TAL)のWiFitalとXRFV2。
実験結果は大幅なパフォーマンスの改善を示しています。XRF55では、WiFi、RFID、およびMMWaveの精度はそれぞれ3.9%、2.59%、および0.46%増加します。
Wifitalでは、Wifitadの平均性能が4.98%向上します。
また、XRFV2では、さまざまな方法で平均平均精度の増加は4.02%から13.68%です。
私たちのコードはhttps://github.com/yangzhenkui/witalkに含まれています。

要約(オリジナル)

Wireless signal-based human sensing technologies, such as WiFi, millimeter-wave (mmWave) radar, and Radio Frequency Identification (RFID), enable the detection and interpretation of human presence, posture, and activities, thereby providing critical support for applications in public security, healthcare, and smart environments. These technologies exhibit notable advantages due to their non-contact operation and environmental adaptability; however, existing systems often fail to leverage the textual information inherent in datasets. To address this, we propose an innovative text-enhanced wireless sensing framework, WiTalk, that seamlessly integrates semantic knowledge through three hierarchical prompt strategies-label-only, brief description, and detailed action description-without requiring architectural modifications or incurring additional data costs. We rigorously validate this framework across three public benchmark datasets: XRF55 for human action recognition (HAR), and WiFiTAL and XRFV2 for WiFi temporal action localization (TAL). Experimental results demonstrate significant performance improvements: on XRF55, accuracy for WiFi, RFID, and mmWave increases by 3.9%, 2.59%, and 0.46%, respectively; on WiFiTAL, the average performance of WiFiTAD improves by 4.98%; and on XRFV2, the mean average precision gains across various methods range from 4.02% to 13.68%. Our codes have been included in https://github.com/yangzhenkui/WiTalk.

arxiv情報

著者 Zhenkui Yang,Zeyi Huang,Ge Wang,Han Ding,Tony Xiao Han,Fei Wang
発行日 2025-04-22 14:48:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Talk is Not Always Cheap: Promoting Wireless Sensing Models with Text Prompts はコメントを受け付けていません

Visual Place Cell Encoding: A Computational Model for Spatial Representation and Cognitive Mapping

要約

このホワイトペーパーでは、視覚入力を使用して場所セルのような活性化をシミュレートするための生物学的にインスパイアされた計算フレームワークである視覚的な場所セルエンコード(VPCE)モデルを紹介します。
視覚的ランドマークが空間エンコーディングにおいて中心的な役割を果たすという証拠に基づいて、提案されたVPCEモデルは、ロボットに取り付けられたカメラでキャプチャされた画像から抽出された高次元外観の特徴をクラスタリングすることにより、視覚的な場所セルをアクティブにします。
各クラスターセンターは受容フィールドを定義し、放射状基底関数を使用して視覚的類似性に基づいて活性化が計算されます。
結果の活性化パターンが、空間的近接性、方向アライメント、境界分化を含む生物学的位置細胞の重要な特性と相関するかどうかを評価します。
実験は、VPCEが視覚的に類似しているが空間的に異なる場所を区別し、壁の挿入や除去などの環境の変化に適応できることを示しています。
これらの結果は、構造化された視覚入力は、モーションキューや報酬駆動型学習がない場合でも、場所セルのような空間表現を生成し、生物学的にインスパイアされた認知マッピングをサポートするのに十分であることを示唆しています。

要約(オリジナル)

This paper presents the Visual Place Cell Encoding (VPCE) model, a biologically inspired computational framework for simulating place cell-like activation using visual input. Drawing on evidence that visual landmarks play a central role in spatial encoding, the proposed VPCE model activates visual place cells by clustering high-dimensional appearance features extracted from images captured by a robot-mounted camera. Each cluster center defines a receptive field, and activation is computed based on visual similarity using a radial basis function. We evaluate whether the resulting activation patterns correlate with key properties of biological place cells, including spatial proximity, orientation alignment, and boundary differentiation. Experiments demonstrate that the VPCE can distinguish between visually similar yet spatially distinct locations and adapt to environment changes such as the insertion or removal of walls. These results suggest that structured visual input, even in the absence of motion cues or reward-driven learning, is sufficient to generate place-cell-like spatial representations and support biologically inspired cognitive mapping.

arxiv情報

著者 Chance J. Hamilton,Alfredo Weitzenfeld
発行日 2025-04-22 14:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Visual Place Cell Encoding: A Computational Model for Spatial Representation and Cognitive Mapping はコメントを受け付けていません