Data-Free Class-Incremental Gesture Recognition with Prototype-Guided Pseudo Feature Replay

要約

ジェスチャー認識は、コンピュータービジョンの分野における重要な研究分野です。
ほとんどのジェスチャー認識の取り組みは、クローズセットのシナリオに焦点を当てており、それにより、目に見えないまたは新しいジェスチャーを効果的に処理する能力を制限します。
私たちは、時間の経過とともに新しい、以前に目に見えなかったジェスチャーに対応する能力を伴う、階級内のジェスチャー認識に対処することを目指しています。
具体的には、データフリーのクラス内容ジェスチャー認識のために、プロトタイプ誘導の擬似特徴リプレイ(PGPFR)フレームワークを紹介します。
このフレームワークは、4つのコンポーネントで構成されています。バッチプロトタイプ(PFGBP)を備えた擬似機能生成、古いクラスの変分プロトタイプリプレイ(VPR)、新しいクラスの切り捨てられたクロスエントロピー(TCE)、および継続的な分類器再トレーニング(CCRT)。
壊滅的な忘却の問題に取り組むために、PFGBPはオンラインで多様な擬似機能を動的に生成し、古いクラスのクラスプロトタイプと新しいクラスのバッチクラスプロトタイプを活用します。
さらに、VPRは、分類器の重みと古いクラスのプロトタイプとの一貫性を強制し、クラスのプロトタイプと共分散行列を活用して、堅牢性と一般化能力を高めます。
TCEは、疑似特徴によって引き起こされる分類器のドメインの違いの影響を軽減します。
最後に、CCRTトレーニング戦略は、新しいクラスへの過剰適合を防ぎ、古いクラスから抽出された機能の安定性を確保するように設計されています。
広く使用されている2つのジェスチャー認識データセット、すなわちShrec 2017 3DとEgogesture 3Dで行われた広範な実験は、私たちのアプローチが、平均グローバル精度の点でそれぞれ11.8 \%および12.8 \%よりも既存の最先端の方法を上回ることを示しています。
このコードは、https://github.com/sunao-101/pgpfr-3/で入手できます。

要約(オリジナル)

Gesture recognition is an important research area in the field of computer vision. Most gesture recognition efforts focus on close-set scenarios, thereby limiting the capacity to effectively handle unseen or novel gestures. We aim to address class-incremental gesture recognition, which entails the ability to accommodate new and previously unseen gestures over time. Specifically, we introduce a Prototype-Guided Pseudo Feature Replay (PGPFR) framework for data-free class-incremental gesture recognition. This framework comprises four components: Pseudo Feature Generation with Batch Prototypes (PFGBP), Variational Prototype Replay (VPR) for old classes, Truncated Cross-Entropy (TCE) for new classes, and Continual Classifier Re-Training (CCRT). To tackle the issue of catastrophic forgetting, the PFGBP dynamically generates a diversity of pseudo features in an online manner, leveraging class prototypes of old classes along with batch class prototypes of new classes. Furthermore, the VPR enforces consistency between the classifier’s weights and the prototypes of old classes, leveraging class prototypes and covariance matrices to enhance robustness and generalization capabilities. The TCE mitigates the impact of domain differences of the classifier caused by pseudo features. Finally, the CCRT training strategy is designed to prevent overfitting to new classes and ensure the stability of features extracted from old classes. Extensive experiments conducted on two widely used gesture recognition datasets, namely SHREC 2017 3D and EgoGesture 3D, demonstrate that our approach outperforms existing state-of-the-art methods by 11.8\% and 12.8\% in terms of mean global accuracy, respectively. The code is available on https://github.com/sunao-101/PGPFR-3/.

arxiv情報

著者 Hongsong Wang,Ao Sun,Jie Gui,Liang Wang
発行日 2025-05-26 14:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Data-Free Class-Incremental Gesture Recognition with Prototype-Guided Pseudo Feature Replay はコメントを受け付けていません

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

要約

拡散モデルは、テキストからイメージの生成の主流のアーキテクチャとなっており、視覚的な品質と迅速な制御可能性の顕著な進歩を達成しています。
ただし、現在の推論パイプラインには、一般に、除去プロセス全体で解釈可能なセマンティック監督と修正メカニズムがありません。
ほとんどの既存のアプローチは、最終的な画像の事後スコアリング、プロンプトフィルタリング、または生成軌道を修正するための実用的なガイダンスを提供する際に効果がないヒューリスティックなリサンプリング戦略のみに依存しています。
その結果、モデルはしばしば、オブジェクトの混乱、空間エラー、不正確なカウント、およびセマンティック要素の欠落に悩まされ、迅速な画像のアライメントと画質を厳しく妥協します。
これらの課題に取り組むために、MLLMセマンティック補正されたPing-Pong-Ahead Diffusion(PPAD)を提案します。これは、初めて、推論中にマルチモーダル大言語モデル(MLLM)をセマンティックオブザーバーとして導入する新しいフレームワークです。
PPADは、中間世代のリアルタイム分析を実行し、潜在的なセマンティックな矛盾を特定し、フィードバックを残りの除去ステップを積極的にガイドする制御可能な信号に変換します。
このフレームワークは、推論のみとトレーニングが強化された設定の両方をサポートし、非常に少ない拡散ステップでのみセマンティック修正を実行し、強力な一般性とスケーラビリティを提供します。
広範な実験は、PPADの大幅な改善を示しています。

要約(オリジナル)

Diffusion models have become the mainstream architecture for text-to-image generation, achieving remarkable progress in visual quality and prompt controllability. However, current inference pipelines generally lack interpretable semantic supervision and correction mechanisms throughout the denoising process. Most existing approaches rely solely on post-hoc scoring of the final image, prompt filtering, or heuristic resampling strategies-making them ineffective in providing actionable guidance for correcting the generative trajectory. As a result, models often suffer from object confusion, spatial errors, inaccurate counts, and missing semantic elements, severely compromising prompt-image alignment and image quality. To tackle these challenges, we propose MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD), a novel framework that, for the first time, introduces a Multimodal Large Language Model (MLLM) as a semantic observer during inference. PPAD performs real-time analysis on intermediate generations, identifies latent semantic inconsistencies, and translates feedback into controllable signals that actively guide the remaining denoising steps. The framework supports both inference-only and training-enhanced settings, and performs semantic correction at only extremely few diffusion steps, offering strong generality and scalability. Extensive experiments demonstrate PPAD’s significant improvements.

arxiv情報

著者 Zheqi Lv,Junhao Chen,Qi Tian,Keting Yin,Shengyu Zhang,Fei Wu
発行日 2025-05-26 14:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion はコメントを受け付けていません

PAMD: Plausibility-Aware Motion Diffusion Model for Long Dance Generation

要約

コンピューティングダンス生成は、特にコヒーレントで表現力豊かな長いダンスシーケンスを生成するために、アート、人間コンピューターの相互作用、仮想現実、デジタルエンターテイメントなど、多くの分野で重要です。
拡散ベースの音楽からダンスへの世代は大きな進歩を遂げましたが、既存の方法は依然として身体的にもっともらしい動きを生み出すのに苦労しています。
これに対処するために、音楽的に整列し、身体的に現実的なダンスを生成するためのフレームワークである、妥当性を意識する動き拡散(PAMD)を提案します。
PAMDのコアは、もっともらしい動きの制約(PMC)にあります。これは、神経距離場(NDF)を活用して実際のポーズマニホールドをモデル化し、生成された動きを物理的に有効なポーズマニホールドに向けてガイドします。
生成中のより効果的なガイダンスを提供するために、スタンディングを使用する以前のモーションガイダンス(PMG)が組み込まれています。
複雑な動きのリアリズムをさらに強化するために、線形ジョイント位置空間の最適化目標と非線形回転空間でのデータ表現との間のギャップを埋めることにより、足を剥がれたアーティファクトに対処するフットグラウンドコンタクト(MRFC)モジュールで動きの洗練を導入します。
広範な実験は、PAMDが音楽の整合性を大幅に改善し、生成された動きの物理的妥当性を高めることを示しています。
このプロジェクトページは、https://mucunzhuzhu.github.io/pamd-page/で入手できます。

要約(オリジナル)

Computational dance generation is crucial in many areas, such as art, human-computer interaction, virtual reality, and digital entertainment, particularly for generating coherent and expressive long dance sequences. Diffusion-based music-to-dance generation has made significant progress, yet existing methods still struggle to produce physically plausible motions. To address this, we propose Plausibility-Aware Motion Diffusion (PAMD), a framework for generating dances that are both musically aligned and physically realistic. The core of PAMD lies in the Plausible Motion Constraint (PMC), which leverages Neural Distance Fields (NDFs) to model the actual pose manifold and guide generated motions toward a physically valid pose manifold. To provide more effective guidance during generation, we incorporate Prior Motion Guidance (PMG), which uses standing poses as auxiliary conditions alongside music features. To further enhance realism for complex movements, we introduce the Motion Refinement with Foot-ground Contact (MRFC) module, which addresses foot-skating artifacts by bridging the gap between the optimization objective in linear joint position space and the data representation in nonlinear rotation space. Extensive experiments show that PAMD significantly improves musical alignment and enhances the physical plausibility of generated motions. This project page is available at: https://mucunzhuzhu.github.io/PAMD-page/.

arxiv情報

著者 Hongsong Wang,Yin Zhu,Qiuxia Lai,Yang Zhang,Guo-Sen Xie,Xin Geng
発行日 2025-05-26 14:44:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PAMD: Plausibility-Aware Motion Diffusion Model for Long Dance Generation はコメントを受け付けていません

M3DHMR: Monocular 3D Hand Mesh Recovery

要約

単眼3Dハンドメッシュの回復は、手の自由度、2Dから3Dのあいまいさ、自己閉鎖により、困難です。
ほとんどの既存の方法は、3Dメッシュの頂点の位置を予測するために非効率的またはそれほど簡単ではありません。
したがって、ハンドメッシュ頂点の位置を直接推定するために、Monocular 3Dハンドメッシュ回復(M3DHMR)と呼ばれる新しいパイプラインを提案します。
M3DHMRは、単一の画像から3Dタスクに2Dキューを提供し、いくつかの動的スパイラル畳み込み(DSC)層と関心のある領域(ROI)層で構成される新しいスパイラルデコーダーを使用します。
一方では、DSCレイヤーは頂点の位置に基づいて重みを適応的に調整し、空間寸法とチャネル寸法の両方で頂点の特徴を抽出します。
一方、ROI層は物理情報を利用し、各事前定義された手領域のメッシュ頂点を個別に洗練します。
一般的なデータセットフレイハンドでの広範な実験は、M3DHMRが最先端のリアルタイム方法を大幅に上回ることを示しています。

要約(オリジナル)

Monocular 3D hand mesh recovery is challenging due to high degrees of freedom of hands, 2D-to-3D ambiguity and self-occlusion. Most existing methods are either inefficient or less straightforward for predicting the position of 3D mesh vertices. Thus, we propose a new pipeline called Monocular 3D Hand Mesh Recovery (M3DHMR) to directly estimate the positions of hand mesh vertices. M3DHMR provides 2D cues for 3D tasks from a single image and uses a new spiral decoder consist of several Dynamic Spiral Convolution (DSC) Layers and a Region of Interest (ROI) Layer. On the one hand, DSC Layers adaptively adjust the weights based on the vertex positions and extract the vertex features in both spatial and channel dimensions. On the other hand, ROI Layer utilizes the physical information and refines mesh vertices in each predefined hand region separately. Extensive experiments on popular dataset FreiHAND demonstrate that M3DHMR significantly outperforms state-of-the-art real-time methods.

arxiv情報

著者 Yihong Lin,Xianjia Wu,Xilai Wang,Jianqiao Hu,Songju Lei,Xiandong Li,Wenxiong Kang
発行日 2025-05-26 14:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | M3DHMR: Monocular 3D Hand Mesh Recovery はコメントを受け付けていません

Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting

要約

時系列予測における最近の進歩により、テキストまたはビジョンモダリティを使用したモデルの増強モデルが精度を向上させました。
テキストは文脈上の理解を提供しますが、多くの場合、細粒の一時的な詳細が欠けています。
逆に、ビジョンは複雑な時間的パターンをキャプチャしますが、セマンティックコンテキストを欠いており、これらのモダリティの補完的な可能性を制限します。
これに対処するために、事前に訓練されたビジョン言語モデル(VLM)を活用して、予測を強化するための時間、視覚、およびテキストのモダリティを橋渡しする新しいマルチモーダルフレームワークである\ Methodを提案します。
私たちのフレームワークは、3つの主要なコンポーネントで構成されています。(1)メモリバンクの相互作用を通じて濃縮された時間的特徴を抽出する検索された熟成学習者。
(2)時系列を有益な画像としてコードする視覚熟成学習者。
(3)文脈的なテキストの説明を生成するテキストの高級学習者。
これらのコンポーネントは、凍結した事前に訓練されたVLMと協力して、マルチモーダル埋め込みを生成し、最終予測のために時間的特徴と融合します。
広範な実験は、時間VLMが特に少ないショットおよびゼロショットシナリオで優れたパフォーマンスを達成し、それによってマルチモーダルの時系列予測の新しい方向性を確立することを示しています。
コードはhttps://github.com/citymind-lab/icml25-timevlmで入手できます。

要約(オリジナル)

Recent advancements in time series forecasting have explored augmenting models with text or vision modalities to improve accuracy. While text provides contextual understanding, it often lacks fine-grained temporal details. Conversely, vision captures intricate temporal patterns but lacks semantic context, limiting the complementary potential of these modalities. To address this, we propose \method, a novel multimodal framework that leverages pre-trained Vision-Language Models (VLMs) to bridge temporal, visual, and textual modalities for enhanced forecasting. Our framework comprises three key components: (1) a Retrieval-Augmented Learner, which extracts enriched temporal features through memory bank interactions; (2) a Vision-Augmented Learner, which encodes time series as informative images; and (3) a Text-Augmented Learner, which generates contextual textual descriptions. These components collaborate with frozen pre-trained VLMs to produce multimodal embeddings, which are then fused with temporal features for final prediction. Extensive experiments demonstrate that Time-VLM achieves superior performance, particularly in few-shot and zero-shot scenarios, thereby establishing a new direction for multimodal time series forecasting. Code is available at https://github.com/CityMind-Lab/ICML25-TimeVLM.

arxiv情報

著者 Siru Zhong,Weilin Ruan,Ming Jin,Huan Li,Qingsong Wen,Yuxuan Liang
発行日 2025-05-26 14:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting はコメントを受け付けていません

VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion

要約

レッグロボットの移動における最近の成功は、強化学習と物理シミュレーターの統合に起因しています。
ただし、シミュレーターは通常、視覚的リアリズムと複雑な現実世界のジオメトリを複製できないため、これらのポリシーは、SIMからリアルのギャップのために実際の環境で展開されたときに課題に遭遇することがよくあります。
さらに、現実的な視覚レンダリングの欠如は、これらのポリシーの能力を制限し、自我中心のナビゲーションなどのRGBベースの認識を必要とする高レベルのタスクをサポートします。
このペーパーでは、視覚的なナビゲーションと運動学習のための光選挙的で物理的にインタラクティブな「デジタルツイン」シミュレーション環境を生成する実際のフレームワークを紹介します。
私たちのアプローチは、マルチビュー画像からの3Dガウススプラッティング(3DGS)ベースのシーン再構築を活用し、これらの環境をエゴ中心の視覚知覚とメッシュベースの物理的相互作用をサポートするシミュレーションに統合します。
その有効性を実証するために、視覚的な目標追跡タスクを実行するために、シミュレーター内で強化学習ポリシーを訓練します。
広範な実験は、私たちのフレームワークがRGBのみのSIMからリアルへのポリシー転送を達成することを示しています。
さらに、当社のフレームワークは、複雑な新しい環境での効果的な探査能力を備えたロボットポリシーの迅速な適応を促進し、世帯や工場でのアプリケーションの可能性を強調しています。

要約(オリジナル)

Recent success in legged robot locomotion is attributed to the integration of reinforcement learning and physical simulators. However, these policies often encounter challenges when deployed in real-world environments due to sim-to-real gaps, as simulators typically fail to replicate visual realism and complex real-world geometry. Moreover, the lack of realistic visual rendering limits the ability of these policies to support high-level tasks requiring RGB-based perception like ego-centric navigation. This paper presents a Real-to-Sim-to-Real framework that generates photorealistic and physically interactive ‘digital twin’ simulation environments for visual navigation and locomotion learning. Our approach leverages 3D Gaussian Splatting (3DGS) based scene reconstruction from multi-view images and integrates these environments into simulations that support ego-centric visual perception and mesh-based physical interactions. To demonstrate its effectiveness, we train a reinforcement learning policy within the simulator to perform a visual goal-tracking task. Extensive experiments show that our framework achieves RGB-only sim-to-real policy transfer. Additionally, our framework facilitates the rapid adaptation of robot policies with effective exploration capability in complex new environments, highlighting its potential for applications in households and factories.

arxiv情報

著者 Shaoting Zhu,Linzhan Mou,Derun Li,Baijun Ye,Runhan Huang,Hang Zhao
発行日 2025-05-26 14:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion はコメントを受け付けていません

NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

要約

強化学習(RL)の最近の進歩により、視覚言語モデル(VLM)の推論能力が強化されました。
ただし、より良いスケールテスト時間計算にポリシー探索を強化することは、ほとんど露出度が低いままです。
さらに、VLMは不完全な視覚的知覚に苦労し続け、その後の推論プロセスに影響を与えます。
この目的のために、RLトレーニング中にクリーンな画像と適度に歪んだ画像の両方からの軌跡を混合するシンプルで効果的なデータ増強方法であるNoisyrolloutを提案します。
視覚的知覚と結果として生じる推論パターンにターゲットを絞った多様性を注入することにより、ノイズロルアウトは視覚志向の帰納的バイアスを通じてより良い政策探査を促進し、最終的にはより堅牢な推論行動につながります。
さらに、トレーニングよりも歪みの強度を徐々に減らすノイズアニーリングスケジュールを採用し、後の段階でトレーニングの安定性を確保しながら、ノイズの多い信号を早期に活用します。
重要なことに、私たちの方法は簡単に採用できます。追加のトレーニングコストやRL目標の変更を要求しません。
$ 2の異なるトレーニングデータセットに関する広範な実験は、Noisyrolloutが5ドルのドメインの推論と認識ベンチマークにまたがるオープンソースRLチューニングモデル間で最先端のパフォーマンスを達成することを示しています。
さらに、モデルサイズ($ 7 $ bおよび$ 32 $ b)とデータスケール($ 1 $ kから$ 6 $ k)にわたるノイロールアウトの有効性を検証し、その一般化とスケーラビリティを強調します。

要約(オリジナル)

Recent advances in reinforcement learning (RL) have strengthened the reasoning capabilities of vision-language models (VLMs). However, enhancing policy exploration to better scale test-time compute remains largely underexplored. In addition, VLMs continue to struggle with imperfect visual perception, which in turn affects the subsequent reasoning process. To this end, we propose NoisyRollout, a simple yet effective data augmentation method that mixes trajectories from both clean and moderately distorted images during RL training. By injecting targeted diversity in visual perception and the resulting reasoning patterns, NoisyRollout promotes better policy exploration through vision-oriented inductive biases, ultimately leading to more robust reasoning behaviors. We further adopt a noise annealing schedule that gradually reduces distortion strength over training, leveraging noisy signals early on while ensuring training stability in later stages. Crucially, our method is easy-to-adopt–requiring no additional training cost and no modifications to the RL objective. Extensive experiments on $2$ distinct training datasets demonstrate that NoisyRollout achieves state-of-the-art performance among open-source RL-tuned models across $5$ out-of-domain reasoning and perception benchmarks. Furthermore, we validate the effectiveness of NoisyRollout across model sizes ($7$B and $32$B) and data scales (from $1$K to $6$K), highlighting its generalizability and scalability.

arxiv情報

著者 Xiangyan Liu,Jinjie Ni,Zijian Wu,Chao Du,Longxu Dou,Haonan Wang,Tianyu Pang,Michael Qizhe Shieh
発行日 2025-05-26 14:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation はコメントを受け付けていません

X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography

要約

コンピューター断層撮影は、臨床ワークフローに不可欠なツールとして機能し、内部解剖学的構造の非侵襲的視覚化を提供します。
既存のCT再構成作業は、小容量モデルアーキテクチャと柔軟性のないボリューム表現に限定されています。
この作業では、X-GRM(X-Ray Gaussian Reconstruction Model)を提示します。これは、Sparse-View 2D X線投影から3D CTボリュームを再構築するための大きなフィードフォワードモデルです。
X-GRMは、スケーラブルな変圧器ベースのアーキテクチャを採用して、異なるビューのトークンが効率的に統合されているスパースビューX線入力をエンコードします。
次に、これらのトークンは、VoxelベースのGaussian Splatting(VOXGS)という名前の新しいボリューム表現にデコードされ、効率的なCTボリューム抽出と微分可能なX線レンダリングを可能にします。
この大容量モデルと柔軟なボリューム表現のこの組み合わせにより、モデルは、ドメイン内およびドメインのX線予測を含むさまざまなテスト入力から高品質の再構成を生成することができます。
私たちのコードは、https://github.com/cuhk-aim-group/x-grmで入手できます。

要約(オリジナル)

Computed Tomography serves as an indispensable tool in clinical workflows, providing non-invasive visualization of internal anatomical structures. Existing CT reconstruction works are limited to small-capacity model architecture and inflexible volume representation. In this work, we present X-GRM (X-ray Gaussian Reconstruction Model), a large feedforward model for reconstructing 3D CT volumes from sparse-view 2D X-ray projections. X-GRM employs a scalable transformer-based architecture to encode sparse-view X-ray inputs, where tokens from different views are integrated efficiently. Then, these tokens are decoded into a novel volume representation, named Voxel-based Gaussian Splatting (VoxGS), which enables efficient CT volume extraction and differentiable X-ray rendering. This combination of a high-capacity model and flexible volume representation, empowers our model to produce high-quality reconstructions from various testing inputs, including in-domain and out-domain X-ray projections. Our codes are available at: https://github.com/CUHK-AIM-Group/X-GRM.

arxiv情報

著者 Yifan Liu,Wuyang Li,Weihao Yu,Chenxin Li,Alexandre Alahi,Max Meng,Yixuan Yuan
発行日 2025-05-26 14:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography はコメントを受け付けていません

Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy

要約

低高度経済(LAE)をサポートするには、世界のポジショニングシステム(GPS)シグナルが利用できない都市部で無人航空機(UAV)の正確なローカリゼーションを達成することが不可欠です。
ビジョンベースの方法は、実行可能な代替手段を提供しますが、軽量UAVの深刻な帯域幅、メモリ、処理の制約に直面しています。
哺乳類の空間認知に触発されて、マルチカメラシステムを装備したUAVがコンパクトなマルチビュー機能とエッジサーバーへのオフロードローカリゼーションタスクを抽出するタスク指向のコミュニケーションフレームワークを提案します。
直交関連のバリエーション情報ボトルネックエンコーダ(O-VIB)を紹介します。これには、オートマティックな関連性決定(ARD)が組み込まれ、非情報機能を整理しながら、冗長性を最小限に抑えます。
これにより、伝送コストを最小限に抑えて効率的かつ正確なローカリゼーションが可能になります。
専用のLAE UAVデータセットの広範な評価は、O-VIBが厳しい帯域幅予算の下で高精度のローカリゼーションを達成することを示しています。
コードとデータセットは、github.com/fangzr/toc-edge-aerialで公開されます。

要約(オリジナル)

To support the Low Altitude Economy (LAE), it is essential to achieve precise localization of unmanned aerial vehicles (UAVs) in urban areas where global positioning system (GPS) signals are unavailable. Vision-based methods offer a viable alternative but face severe bandwidth, memory and processing constraints on lightweight UAVs. Inspired by mammalian spatial cognition, we propose a task-oriented communication framework, where UAVs equipped with multi-camera systems extract compact multi-view features and offload localization tasks to edge servers. We introduce the Orthogonally-constrained Variational Information Bottleneck encoder (O-VIB), which incorporates automatic relevance determination (ARD) to prune non-informative features while enforcing orthogonality to minimize redundancy. This enables efficient and accurate localization with minimal transmission cost. Extensive evaluation on a dedicated LAE UAV dataset shows that O-VIB achieves high-precision localization under stringent bandwidth budgets. Code and dataset will be made publicly available at: github.com/fangzr/TOC-Edge-Aerial.

arxiv情報

著者 Zhengru Fang,Zhenghao Liu,Jingjing Wang,Senkang Hu,Yu Guo,Yiqin Deng,Yuguang Fang
発行日 2025-05-26 15:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NI | Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy はコメントを受け付けていません

AdaTP: Attention-Debiased Token Pruning for Video Large Language Models

要約

ビデオ大規模な言語モデル(ビデオLLM)は、ビデオ理解のタスクで顕著な結果を達成しました。
ただし、複数のビデオフレームから生成された視覚トークンが多数あるため、彼らはしばしば重い計算オーバーヘッドに苦しんでいます。
既存の視覚トークン圧縮方法は、多くの場合、ガイダンスとして言語モデルからの注意スコアに依存しています。
ただし、これらのスコアは固有のバイアスを示します。グローバルバイアスは、視覚トークンシーケンスの両端に焦点を合わせる傾向を反映していますが、ローカルバイアスは異なるフレームにわたる同じ空間位置の過度の濃縮につながります。
注意バイアスの問題に対処するために、$ \ textbf {a} $ ttention-$ \ textbf {d} $ ebi $ \ textbf {a} $ sed $ \ textbf {t} $ oken $ \ textbf {p} $ runing for video video video viday models($ \ textbf {adatpbf {adatpf:$ forming pring for for for for for for for for prun
LLMS。
ADATPは、2つの専用の委任モジュールをパイプラインに統合し、それぞれグローバルな注意バイアスとローカルな注意バイアスをターゲットにしています。
追加のトレーニングを必要とせずに、私たちの方法は、バニラモデルのパフォーマンスを保持しながら、ビデオLLMの計算オーバーヘッドを大幅に削減します。
広範な評価によると、ADATPは、一般的に使用されるさまざまなビデオ理解ベンチマークで最先端のパフォーマンスを達成しています。
特に、LLAVA-OneVision-7Bでは、ADATPはバニラモデルと比較して最大$ 27.3 \%$ flopsのみを使用しながら、分解なしでパフォーマンスを維持します。
私たちのコードはまもなくリリースされます。

要約(オリジナル)

Video Large Language Models (Video LLMs) have achieved remarkable results in video understanding tasks. However, they often suffer from heavy computational overhead due to the large number of visual tokens generated from multiple video frames. Existing visual token compression methods often rely on attention scores from language models as guidance. However, these scores exhibit inherent biases: global bias reflects a tendency to focus on the two ends of the visual token sequence, while local bias leads to an over-concentration on the same spatial positions across different frames. To address the issue of attention bias, we propose $\textbf{A}$ttention-$\textbf{D}$ebi$\textbf{a}$sed $\textbf{T}$oken $\textbf{P}$runing for Video Large Language Models ($\textbf{AdaTP}$), a novel token pruning pipeline for Video LLMs. AdaTP integrates two dedicated debiasing modules into the pipeline, targeting global attention bias and local attention bias, respectively. Without the need for additional training, our method significantly reduces the computational overhead of Video LLMs while retaining the performance of vanilla models. Extensive evaluation shows that AdaTP achieves state-of-the-art performance in various commonly used video understanding benchmarks. In particular, on LLaVA-OneVision-7B, AdaTP maintains performance without degradation while using only up to $27.3\%$ FLOPs compared to the vanilla model. Our code will be released soon.

arxiv情報

著者 Fengyuan Sun,Leqi Shen,Hui Chen,Sicheng Zhao,Jungong Han,Guiguang Ding
発行日 2025-05-26 15:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AdaTP: Attention-Debiased Token Pruning for Video Large Language Models はコメントを受け付けていません