cs.CV」カテゴリーアーカイブ

DressRecon: Freeform 4D Human Reconstruction from Monocular Video

要約 極端にゆるい衣服や手持ちの物体の相互作用に焦点を当て、単眼ビデオから時間一 … 続きを読む

カテゴリー: cs.CV | コメントする

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

要約 MM1.5 は、テキストが豊富な画像の理解、視覚的な参照とグラウンディング … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | コメントする

Where’s Waldo: Diffusion Features for Personalized Segmentation and Retrieval

要約 パーソナライズされた検索とセグメンテーションは、入力画像と参照インスタンス … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Enhanced Parking Perception by Multi-Task Fisheye Cross-view Transformers

要約 現在の駐車エリア認識アルゴリズムは、主に限られた範囲内の空きスロットを検出 … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Enhancing GANs with Contrastive Learning-Based Multistage Progressive Finetuning SNN and RL-Based External Optimization

要約 がん研究、特に早期診断、症例理解、治療戦略設計におけるディープラーニングの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | コメントする

Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models

要約 強力な推論機能を備えたディープラーニング アーキテクチャは、自動運転技術の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする

World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering

要約 視覚言語モデル (VLM) の最近の進歩と、高品質のマルチモーダル アライ … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator

要約 Neural Architecture Search (NAS) はニュー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models

要約 我々は、大規模言語モデル (LLM) と階層型モーション固有のベクトル量子 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントする

Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties

要約 大規模言語モデル (LLM) の最近の成功の背後にある主な理由は、その \ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする