「cs.CV」カテゴリーアーカイブ

Efficient Multimodal Large Language Models: A Survey

投稿日: 2024年8月12日作成者: jarxiv

要約過去 1 年間、マルチモーダル大規模言語モデル (MLLM) は、視覚的な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation

投稿日: 2024年8月12日作成者: jarxiv

要約我々は、オープンボキャブラリーのセマンティックセグメンテーションのために、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image Inpainting

投稿日: 2024年8月12日作成者: jarxiv

要約近年、テキストガイドによる画像修復に関連する研究に大きな焦点が当てられてい … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation

投稿日: 2024年8月12日作成者: jarxiv

要約医療および産業分野では、効率と安全性を確保するために、組み立てプロセスのガ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

XNN: Paradigm Shift in Mitigating Identity Leakage within Cloud-Enabled Deep Learning

投稿日: 2024年8月12日作成者: jarxiv

要約クラウドベースの深層学習の領域では、外部の計算リソースの必要性と、プライバ … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

Enhancing Person Re-Identification via Uncertainty Feature Fusion and Auto-weighted Measure Combination

投稿日: 2024年8月12日作成者: jarxiv

要約多様なシナリオにわたって対象者を正確に識別できる堅牢な人物再識別 (Re- … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

NuLite — Lightweight and Fast Model for Nuclei Instance Segmentation and Classification

投稿日: 2024年8月12日作成者: jarxiv

要約病理学では、タイムリーで効果的ながん診断には、ヘマトキシリン・エオシン ( … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

DreamCouple: Exploring High Quality Text-to-3D Generation Via Rectified Flow

投稿日: 2024年8月12日作成者: jarxiv

要約 3D モデルのトレーニングの前に、事前トレーニング済みのテキストから画像へ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Instruction Tuning-free Visual Token Complement for Multimodal LLMs

投稿日: 2024年8月12日作成者: jarxiv

要約大規模言語モデル (LLM) のオープンコミュニティが成熟するにつれて、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RadarPillars: Efficient Object Detection from 4D Radar Point Clouds

投稿日: 2024年8月12日作成者: jarxiv

要約自動車レーダーシステムは、距離、方位角、ドップラー速度だけでなく、標高デ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Efficient Multimodal Large Language Models: A Survey

In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation

DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image Inpainting

ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation

XNN: Paradigm Shift in Mitigating Identity Leakage within Cloud-Enabled Deep Learning

Enhancing Person Re-Identification via Uncertainty Feature Fusion and Auto-weighted Measure Combination

NuLite — Lightweight and Fast Model for Nuclei Instance Segmentation and Classification

DreamCouple: Exploring High Quality Text-to-3D Generation Via Rectified Flow

Instruction Tuning-free Visual Token Complement for Multimodal LLMs

RadarPillars: Efficient Object Detection from 4D Radar Point Clouds

最近の投稿

最近のコメント

アーカイブ

カテゴリー