月別アーカイブ: 2024年3月

Learning Topological Representations for Deep Image Understanding

要約 多くのシナリオ、特に生物医学応用では、ニューロン、組織、血管などの複雑で細 … 続きを読む

カテゴリー: cs.CV, cs.LG | Learning Topological Representations for Deep Image Understanding はコメントを受け付けていません

Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks

要約 自動運転システムの有効性には、さまざまな運転シナリオ下で多様な物体を検出す … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks はコメントを受け付けていません

InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding

要約 アクション認識、ビデオテキストタスク、およびビデオ中心の対話において最先端 … 続きを読む

カテゴリー: cs.CV | InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding はコメントを受け付けていません

Long-CLIP: Unlocking the Long-Text Capability of CLIP

要約 Contrastive Language-Image Pre-traini … 続きを読む

カテゴリー: cs.CV | Long-CLIP: Unlocking the Long-Text Capability of CLIP はコメントを受け付けていません

DragAPart: Learning a Part-Level Motion Prior for Articulated Objects

要約 DragAPart というメソッドを紹介します。このメソッドは、画像と一連 … 続きを読む

カテゴリー: cs.CV | DragAPart: Learning a Part-Level Motion Prior for Articulated Objects はコメントを受け付けていません

ThemeStation: Generating Theme-Aware 3D Assets from Few Exemplars

要約 実際のアプリケーションでは、多くの場合、一貫したテーマを共有する 3D ア … 続きを読む

カテゴリー: cs.CV | ThemeStation: Generating Theme-Aware 3D Assets from Few Exemplars はコメントを受け付けていません

Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting

要約 シーン表現として 3D ガウスを使用する高密度同時位置特定およびマッピング … 続きを読む

カテゴリー: cs.CV, cs.RO | Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting はコメントを受け付けていません

LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis

要約 最近のテキストから 3D への生成アプローチでは、印象的な 3D 結果が生 … 続きを読む

カテゴリー: 68T45, cs.AI, cs.CV, cs.GR, cs.LG, I.2.6 | LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis はコメントを受け付けていません

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

要約 大規模マルチモーダル モデル (LMM) は、ビジュアル エンコーダーと大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models はコメントを受け付けていません

DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data

要約 最近、部分的に注釈が付けられたデータから複数の高密度シーン理解タスクを学習 … 続きを読む

カテゴリー: cs.CV, cs.LG | DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data はコメントを受け付けていません