月別アーカイブ: 2024年2月

Semantic Anything in 3D Gaussians

要約 3D ガウス スプラッティングは、Neural Radiance Fiel … 続きを読む

カテゴリー: cs.CV | Semantic Anything in 3D Gaussians はコメントを受け付けていません

Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis

要約 マルチモーダル大規模言語モデル (MLLM) は、主に大規模言語モデル ( … 続きを読む

カテゴリー: cs.CV, I.2.7 | Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis はコメントを受け付けていません

Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model

要約 Segment Anything Model (SAM) は、画像セグメン … 続きを読む

カテゴリー: cs.CV, cs.LG | Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model はコメントを受け付けていません

CARPE-ID: Continuously Adaptable Re-identification for Personalized Robot Assistance

要約 今日のヒューマン ロボット インタラクション (HRI) シナリオでは、ロ … 続きを読む

カテゴリー: cs.CV, cs.RO | CARPE-ID: Continuously Adaptable Re-identification for Personalized Robot Assistance はコメントを受け付けていません

VR-based generation of photorealistic synthetic data for training hand-object tracking models

要約 3D での手とオブジェクトのインタラクション (HOI) を正確に追跡する … 続きを読む

カテゴリー: cs.CV | VR-based generation of photorealistic synthetic data for training hand-object tracking models はコメントを受け付けていません

AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error

要約 最近のテキストから画像へのモデルを使用すると、誰でも任意のコンテンツを含む … 続きを読む

カテゴリー: cs.CV | AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error はコメントを受け付けていません

PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition

要約 マルチラベル画像認識は、コンピューター ビジョンの基本的なタスクです。 最 … 続きを読む

カテゴリー: cs.CV | PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition はコメントを受け付けていません

Reimagining Reality: A Comprehensive Survey of Video Inpainting Techniques

要約 このペーパーでは、コンピューター ビジョンと人工知能の重要なサブセットであ … 続きを読む

カテゴリー: cs.CV | Reimagining Reality: A Comprehensive Survey of Video Inpainting Techniques はコメントを受け付けていません

ReplaceAnything3D:Text-Guided 3D Scene Editing with Compositional Neural Radiance Fields

要約 ReplaceAnything3D モデル (RAM3D) を紹介します。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | ReplaceAnything3D:Text-Guided 3D Scene Editing with Compositional Neural Radiance Fields はコメントを受け付けていません

Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation

要約 大規模なデータセットで事前トレーニングされた深遠なビジョン基盤モデルである … 続きを読む

カテゴリー: cs.CV | Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation はコメントを受け付けていません