月別アーカイブ: 2024年5月

What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models

要約 大規模言語モデル (LLM) は、画像分類を含む多くのコンピューター ビジ … 続きを読む

カテゴリー: cs.CV | What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models はコメントを受け付けていません

GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering

要約 3D ガウス スプラッティングの進歩により、3D の再構築と生成が大幅に加 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering はコメントを受け付けていません

SMART: Scalable Multi-agent Real-time Simulation via Next-token Prediction

要約 データ駆動型の自動運転モーション生成タスクは、データセット サイズの制限と … 続きを読む

カテゴリー: cs.CV, cs.RO | SMART: Scalable Multi-agent Real-time Simulation via Next-token Prediction はコメントを受け付けていません

VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap

要約 実用的なアプリケーションとしての大規模視覚言語モデル (LVLM) への最 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap はコメントを受け付けていません

Fast Sampling Through The Reuse Of Attention Maps In Diffusion Models

要約 テキストから画像への拡散モデルは、柔軟でリアルな画像合成のための前例のない … 続きを読む

カテゴリー: cs.AI, cs.CV | Fast Sampling Through The Reuse Of Attention Maps In Diffusion Models はコメントを受け付けていません

Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models

要約 視覚と言語モダリティの間のギャップを埋めるために、マルチモーダル大規模言語 … 続きを読む

カテゴリー: cs.AI, cs.CV | Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models はコメントを受け付けていません

Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models

要約 従来の人口統計推論手法は、主に正確にラベル付けされたデータの監視下で運用さ … 続きを読む

カテゴリー: cs.CV, cs.LG | Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models はコメントを受け付けていません

UNION: Unsupervised 3D Object Detection using Object Appearance-based Pseudo-Classes

要約 教師なし 3D 物体検出手法は、トレーニングに手動ラベルを必要とせずに、膨 … 続きを読む

カテゴリー: 62H35, 68T05, 68T10, 68U10, cs.CV, I.2.10 | UNION: Unsupervised 3D Object Detection using Object Appearance-based Pseudo-Classes はコメントを受け付けていません

Gaussian Splatting on the Move: Blur and Rolling Shutter Compensation for Natural Camera Motion

要約 ガウス スプラッティング (3DGS) に基づく高品質のシーンの再構成と新 … 続きを読む

カテゴリー: cs.CV | Gaussian Splatting on the Move: Blur and Rolling Shutter Compensation for Natural Camera Motion はコメントを受け付けていません

Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model

要約 ControlNet は、深度マップ、落書き/スケッチ、人間のポーズなど、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model はコメントを受け付けていません