月別アーカイブ: 2024年3月

Text-Conditioned Resampler For Long Form Video Understanding

投稿日: 2024年3月26日作成者: jarxiv

要約この論文では、事前にトレーニングされフリーズされたビジュアルエンコーダー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MambaIR: A Simple Baseline for Image Restoration with State-Space Model

投稿日: 2024年3月26日作成者: jarxiv

要約近年、画像復元は大幅に進歩しましたが、これは主に CNN やトランスフォー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

投稿日: 2024年3月26日作成者: jarxiv

要約この研究では、大規模視覚言語モデル (LVLM)、特に LLaVA-1.5 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Meet JEANIE: a Similarity Measure for 3D Skeleton Sequences via Temporal-Viewpoint Alignment

投稿日: 2024年3月26日作成者: jarxiv

要約ビデオシーケンスは、アクションの速度、時間的位置、および被験者のポーズに … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers

投稿日: 2024年3月26日作成者: jarxiv

要約 3D 人間の姿勢推定は、奥行き情報と物理構造を維持しながら、3 次元空間内 … 続きを読む →

カテゴリー: cs.CV, cs.RO, eess.IV | コメントを受け付けていません

Geometric Generative Models based on Morphological Equivariant PDEs and GANs

投稿日: 2024年3月26日作成者: jarxiv

要約コンテンツと画像の生成は、テクスチャ、エッジ、その他の薄い画像構造などの特 … 続きを読む →

カテゴリー: cs.CV, eess.IV, math.DG | コメントを受け付けていません

Diff-Def: Diffusion-Generated Deformation Fields for Conditional Atlases

投稿日: 2024年3月26日作成者: jarxiv

要約解剖学的アトラスは集団分析に広く使用されています。条件付きアトラスは、特 … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

The Anatomy of Adversarial Attacks: Concept-based XAI Dissection

投稿日: 2024年3月26日作成者: jarxiv

要約敵対的攻撃 (AA) は、ディープニューラルネットワークの信頼性と堅牢 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation

投稿日: 2024年3月26日作成者: jarxiv

要約イベントベースのセマンティックセグメンテーションは、従来の RGB カメ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CurbNet: Curb Detection Framework Based on LiDAR Point Cloud Segmentation

投稿日: 2024年3月26日作成者: jarxiv

要約縁石検出はインテリジェント運転における重要な機能であり、道路の走行可能な領 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

月別アーカイブ: 2024年3月

Text-Conditioned Resampler For Long Form Video Understanding

MambaIR: A Simple Baseline for Image Restoration with State-Space Model

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

Meet JEANIE: a Similarity Measure for 3D Skeleton Sequences via Temporal-Viewpoint Alignment

Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers

Geometric Generative Models based on Morphological Equivariant PDEs and GANs

Diff-Def: Diffusion-Generated Deformation Fields for Conditional Atlases

The Anatomy of Adversarial Attacks: Concept-based XAI Dissection

HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation

CurbNet: Curb Detection Framework Based on LiDAR Point Cloud Segmentation

最近の投稿

最近のコメント

アーカイブ

カテゴリー