cs.CV」カテゴリーアーカイブ

Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models

要約 テキストから画像への生成における拡散モデルの採用の増加により、その信頼性に … 続きを読む

カテゴリー: cs.CV, cs.LG, stat.ML | Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models はコメントを受け付けていません

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

要約 大規模言語モデル (LLM) の急速な進歩により、その機能をマルチモーダル … 続きを読む

カテゴリー: cs.CL, cs.CV | Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training はコメントを受け付けていません

Interactive4D: Interactive 4D LiDAR Segmentation

要約 インタラクティブなセグメンテーションは、将来の LiDAR データセットの … 続きを読む

カテゴリー: cs.CV | Interactive4D: Interactive 4D LiDAR Segmentation はコメントを受け付けていません

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

要約 離散拡散モデルは、画像生成やマスクされた言語モデリングなどのタスクでは成功 … 続きを読む

カテゴリー: cs.CV, cs.LG | DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models はコメントを受け付けていません

SPA: 3D Spatial-Awareness Enables Effective Embodied Representation

要約 この論文では、身体化された AI における 3D 空間認識の重要性を強調す … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | SPA: 3D Spatial-Awareness Enables Effective Embodied Representation はコメントを受け付けていません

Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision

要約 現在の大規模マルチモーダル モデル (LMM) は、モデルが言語コンポーネ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision はコメントを受け付けていません

PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object Detection

要約 単一点教師あり指向物体検出は注目を集め、コミュニティ内で初期の進歩を遂げま … 続きを読む

カテゴリー: cs.AI, cs.CV | PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object Detection はコメントを受け付けていません

LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts

要約 大規模ビジョン言語事前トレーニング (VLP) モデル (CLIP など) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts はコメントを受け付けていません

Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications

要約 車両やロボットなどの自律システムでは、人間と機械の安全なインタラクションの … 続きを読む

カテゴリー: cs.CV | Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications はコメントを受け付けていません

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

要約 視覚言語ナビゲーション (VLN) として知られる、言語指示と視覚情報に基 … 続きを読む

カテゴリー: cs.CV, cs.RO | Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology はコメントを受け付けていません