投稿者「jarxiv」のアーカイブ

Data-Free Class-Incremental Gesture Recognition with Prototype-Guided Pseudo Feature Replay

要約 ジェスチャー認識は、コンピュータービジョンの分野における重要な研究分野です … 続きを読む

カテゴリー: cs.CV | Data-Free Class-Incremental Gesture Recognition with Prototype-Guided Pseudo Feature Replay はコメントを受け付けていません

Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion

要約 拡散モデルは、テキストからイメージの生成の主流のアーキテクチャとなっており … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion はコメントを受け付けていません

PAMD: Plausibility-Aware Motion Diffusion Model for Long Dance Generation

要約 コンピューティングダンス生成は、特にコヒーレントで表現力豊かな長いダンスシ … 続きを読む

カテゴリー: cs.CV | PAMD: Plausibility-Aware Motion Diffusion Model for Long Dance Generation はコメントを受け付けていません

M3DHMR: Monocular 3D Hand Mesh Recovery

要約 単眼3Dハンドメッシュの回復は、手の自由度、2Dから3Dのあいまいさ、自己 … 続きを読む

カテゴリー: cs.CV | M3DHMR: Monocular 3D Hand Mesh Recovery はコメントを受け付けていません

Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting

要約 時系列予測における最近の進歩により、テキストまたはビジョンモダリティを使用 … 続きを読む

カテゴリー: cs.CV, cs.LG | Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting はコメントを受け付けていません

VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion

要約 レッグロボットの移動における最近の成功は、強化学習と物理シミュレーターの統 … 続きを読む

カテゴリー: cs.CV, cs.RO | VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion はコメントを受け付けていません

NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

要約 強化学習(RL)の最近の進歩により、視覚言語モデル(VLM)の推論能力が強 … 続きを読む

カテゴリー: cs.CV | NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation はコメントを受け付けていません

X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography

要約 コンピューター断層撮影は、臨床ワークフローに不可欠なツールとして機能し、内 … 続きを読む

カテゴリー: cs.CV, eess.IV | X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography はコメントを受け付けていません

Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy

要約 低高度経済(LAE)をサポートするには、世界のポジショニングシステム(GP … 続きを読む

カテゴリー: cs.CV, cs.NI | Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy はコメントを受け付けていません

AdaTP: Attention-Debiased Token Pruning for Video Large Language Models

要約 ビデオ大規模な言語モデル(ビデオLLM)は、ビデオ理解のタスクで顕著な結果 … 続きを読む

カテゴリー: cs.AI, cs.CV | AdaTP: Attention-Debiased Token Pruning for Video Large Language Models はコメントを受け付けていません