cs.CV」カテゴリーアーカイブ

Efficient Multimodal Large Language Models: A Survey

要約 過去 1 年間、マルチモーダル大規模言語モデル (MLLM) は、視覚的な … 続きを読む

カテゴリー: cs.AI, cs.CV | Efficient Multimodal Large Language Models: A Survey はコメントを受け付けていません

In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation

要約 我々は、オープンボキャブラリーのセマンティックセグメンテーションのために、 … 続きを読む

カテゴリー: cs.CV | In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation はコメントを受け付けていません

DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image Inpainting

要約 近年、テキストガイドによる画像修復に関連する研究に大きな焦点が当てられてい … 続きを読む

カテゴリー: cs.CV | DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image Inpainting はコメントを受け付けていません

ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation

要約 医療および産業分野では、効率と安全性を確保するために、組み立てプロセスのガ … 続きを読む

カテゴリー: cs.CV, cs.RO | ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation はコメントを受け付けていません

XNN: Paradigm Shift in Mitigating Identity Leakage within Cloud-Enabled Deep Learning

要約 クラウドベースの深層学習の領域では、外部の計算リソースの必要性と、プライバ … 続きを読む

カテゴリー: cs.CR, cs.CV | XNN: Paradigm Shift in Mitigating Identity Leakage within Cloud-Enabled Deep Learning はコメントを受け付けていません

Enhancing Person Re-Identification via Uncertainty Feature Fusion and Auto-weighted Measure Combination

要約 多様なシナリオにわたって対象者を正確に識別できる堅牢な人物再識別 (Re- … 続きを読む

カテゴリー: cs.CV | Enhancing Person Re-Identification via Uncertainty Feature Fusion and Auto-weighted Measure Combination はコメントを受け付けていません

NuLite — Lightweight and Fast Model for Nuclei Instance Segmentation and Classification

要約 病理学では、タイムリーで効果的ながん診断には、ヘマトキシリン・エオシン ( … 続きを読む

カテゴリー: cs.CV, eess.IV | NuLite — Lightweight and Fast Model for Nuclei Instance Segmentation and Classification はコメントを受け付けていません

DreamCouple: Exploring High Quality Text-to-3D Generation Via Rectified Flow

要約 3D モデルのトレーニングの前に、事前トレーニング済みのテキストから画像へ … 続きを読む

カテゴリー: cs.CV | DreamCouple: Exploring High Quality Text-to-3D Generation Via Rectified Flow はコメントを受け付けていません

Instruction Tuning-free Visual Token Complement for Multimodal LLMs

要約 大規模言語モデル (LLM) のオープン コミュニティが成熟するにつれて、 … 続きを読む

カテゴリー: cs.CV | Instruction Tuning-free Visual Token Complement for Multimodal LLMs はコメントを受け付けていません

RadarPillars: Efficient Object Detection from 4D Radar Point Clouds

要約 自動車レーダー システムは、距離、方位角、ドップラー速度だけでなく、標高デ … 続きを読む

カテゴリー: cs.CV | RadarPillars: Efficient Object Detection from 4D Radar Point Clouds はコメントを受け付けていません