月別アーカイブ: 2024年2月

Semantic Anything in 3D Gaussians

投稿日: 2024年2月1日作成者: jarxiv

要約 3D ガウススプラッティングは、Neural Radiance Fiel … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis

投稿日: 2024年2月1日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、主に大規模言語モデル ( … 続きを読む →

カテゴリー: cs.CV, I.2.7 | コメントを受け付けていません

Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model

投稿日: 2024年2月1日作成者: jarxiv

要約 Segment Anything Model (SAM) は、画像セグメン … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

CARPE-ID: Continuously Adaptable Re-identification for Personalized Robot Assistance

投稿日: 2024年2月1日作成者: jarxiv

要約今日のヒューマンロボットインタラクション (HRI) シナリオでは、ロ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

VR-based generation of photorealistic synthetic data for training hand-object tracking models

投稿日: 2024年2月1日作成者: jarxiv

要約 3D での手とオブジェクトのインタラクション (HOI) を正確に追跡する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error

投稿日: 2024年2月1日作成者: jarxiv

要約最近のテキストから画像へのモデルを使用すると、誰でも任意のコンテンツを含む … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition

投稿日: 2024年2月1日作成者: jarxiv

要約マルチラベル画像認識は、コンピュータービジョンの基本的なタスクです。最 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Reimagining Reality: A Comprehensive Survey of Video Inpainting Techniques

投稿日: 2024年2月1日作成者: jarxiv

要約このペーパーでは、コンピュータービジョンと人工知能の重要なサブセットであ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ReplaceAnything3D:Text-Guided 3D Scene Editing with Compositional Neural Radiance Fields

投稿日: 2024年2月1日作成者: jarxiv

要約 ReplaceAnything3D モデル (RAM3D) を紹介します。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation

投稿日: 2024年2月1日作成者: jarxiv

要約大規模なデータセットで事前トレーニングされた深遠なビジョン基盤モデルである … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年2月

Semantic Anything in 3D Gaussians

Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis

Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model

CARPE-ID: Continuously Adaptable Re-identification for Personalized Robot Assistance

VR-based generation of photorealistic synthetic data for training hand-object tracking models

AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error

PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition

Reimagining Reality: A Comprehensive Survey of Video Inpainting Techniques

ReplaceAnything3D:Text-Guided 3D Scene Editing with Compositional Neural Radiance Fields

Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation

最近の投稿

最近のコメント

アーカイブ

カテゴリー