月別アーカイブ: 2024年8月

UVMap-ID: A Controllable and Personalized UV Map Generative Model

投稿日: 2024年8月12日作成者: jarxiv

要約最近、拡散モデルは、提供されたテキストプロンプトに基づいてリアルな 2D … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CROCODILE: Causality aids RObustness via COntrastive DIsentangled LEarning

投稿日: 2024年8月12日作成者: jarxiv

要約ドメインシフトにより、ディープラーニング画像分類器は、トレーニングとは … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV, I.2 | コメントを受け付けていません

Pair then Relation: Pair-Net for Panoptic Scene Graph Generation

投稿日: 2024年8月12日作成者: jarxiv

要約パノプティックシーングラフ (PSG) は、ボックスの代わりにパノプテ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Model Debiasing by Learnable Data Augmentation

投稿日: 2024年8月12日作成者: jarxiv

要約ディープニューラルネットワークは、トレーニングデータを効率的にフィッ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial Description

投稿日: 2024年8月12日作成者: jarxiv

要約 Visual Spatial description (VSD) は、画像 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery

投稿日: 2024年8月12日作成者: jarxiv

要約 Medical Visual Question Answering (VQ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Efficient Multimodal Large Language Models: A Survey

投稿日: 2024年8月12日作成者: jarxiv

要約過去 1 年間、マルチモーダル大規模言語モデル (MLLM) は、視覚的な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation

投稿日: 2024年8月12日作成者: jarxiv

要約我々は、オープンボキャブラリーのセマンティックセグメンテーションのために、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image Inpainting

投稿日: 2024年8月12日作成者: jarxiv

要約近年、テキストガイドによる画像修復に関連する研究に大きな焦点が当てられてい … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation

投稿日: 2024年8月12日作成者: jarxiv

要約医療および産業分野では、効率と安全性を確保するために、組み立てプロセスのガ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

月別アーカイブ: 2024年8月

UVMap-ID: A Controllable and Personalized UV Map Generative Model

CROCODILE: Causality aids RObustness via COntrastive DIsentangled LEarning

Pair then Relation: Pair-Net for Panoptic Scene Graph Generation

Model Debiasing by Learnable Data Augmentation

LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial Description

Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery

Efficient Multimodal Large Language Models: A Survey

In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation

DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image Inpainting

ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation

最近の投稿

最近のコメント

アーカイブ

カテゴリー