投稿者「jarxiv」のアーカイブ

Multi-view Structural Convolution Network for Domain-Invariant Point Cloud Recognition of Autonomous Vehicles

要約 ポイントクラウドの表現は最近、コンピュータービジョンの分野での研究ホットス … 続きを読む

カテゴリー: cs.CV | Multi-view Structural Convolution Network for Domain-Invariant Point Cloud Recognition of Autonomous Vehicles はコメントを受け付けていません

Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity

要約 状態空間モデル(SSM)は、シーケンシャルモデリングのための変圧器の効率的 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity はコメントを受け付けていません

FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers

要約 高解像度の視覚入力の組み込みにより、実際のタスクの視覚的知覚機能が強化され … 続きを読む

カテゴリー: cs.CV | FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers はコメントを受け付けていません

Large Models in Dialogue for Active Perception and Anomaly Detection

要約 自律航空監視は、人間が簡単にアクセスできない地域から情報を収集することを目 … 続きを読む

カテゴリー: cs.AI, cs.CV | Large Models in Dialogue for Active Perception and Anomaly Detection はコメントを受け付けていません

MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis

要約 胸部X線画像は、一般的に急性および慢性の心肺状態を予測するために使用されま … 続きを読む

カテゴリー: cs.AI, cs.CV | MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis はコメントを受け付けていません

LinPrim: Linear Primitives for Differentiable Volumetric Rendering

要約 ボリュームレンダリングは、観察されたビューから直接3Dシーン表現を最適化す … 続きを読む

カテゴリー: cs.CV | LinPrim: Linear Primitives for Differentiable Volumetric Rendering はコメントを受け付けていません

Adaptive Iterative Compression for High-Resolution Files: an Approach Focused on Preserving Visual Quality in Cinematic Workflows

要約 この研究では、映画撮影ワークフローとデジタル保存で使用される高解像度DPX … 続きを読む

カテゴリー: cs.CV, cs.ET, cs.LG, cs.PF | Adaptive Iterative Compression for High-Resolution Files: an Approach Focused on Preserving Visual Quality in Cinematic Workflows はコメントを受け付けていません

GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration

要約 グラフィカルユーザーインターフェイス(GUI)アクション接地は、GUI画面 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration はコメントを受け付けていません

RelightVid: Temporal-Consistent Diffusion Model for Video Relighting

要約 拡散モデルは、画像の生成と編集において顕著な成功を示しており、最近の進歩に … 続きを読む

カテゴリー: cs.AI, cs.CV | RelightVid: Temporal-Consistent Diffusion Model for Video Relighting はコメントを受け付けていません

Visual-Lidar Map Alignment for Infrastructure Inspections

要約 日常的および反復的なインフラストラクチャの検査は、多くの場合、挑戦的または … 続きを読む

カテゴリー: (Primary), 62P30, cs.RO, I.4 | Visual-Lidar Map Alignment for Infrastructure Inspections はコメントを受け付けていません