cs.CV」カテゴリーアーカイブ

Retrospective Learning from Interactions

要約 大規模言語モデル (LLM) とユーザーの間の複数ターンの対話には、当然、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Retrospective Learning from Interactions はコメントを受け付けていません

Can MLLMs Understand the Deep Implication Behind Chinese Images?

要約 マルチモーダル大規模言語モデル (MLLM) の機能が向上し続けるにつれて … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY | Can MLLMs Understand the Deep Implication Behind Chinese Images? はコメントを受け付けていません

$γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

要約 マルチモーダル大規模言語モデル (MLLM) は大幅に進歩しているにもかか … 続きを読む

カテゴリー: cs.CV | $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models はコメントを受け付けていません

VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding

要約 3D の視覚的基盤はロボットにとって極めて重要であり、自然言語と 3D シ … 続きを読む

カテゴリー: cs.CV, cs.RO | VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding はコメントを受け付けていません

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

要約 マルチモーダル基礎モデルの最近の進歩により、視覚言語の理解に大きな進歩がも … 続きを読む

カテゴリー: cs.CV | PUMA: Empowering Unified MLLM with Multi-granular Visual Generation はコメントを受け付けていません

DepthSplat: Connecting Gaussian Splatting and Depth

要約 ガウス スプラッティングとシングル/マルチビュー深度推定は通常、単独で研究 … 続きを読む

カテゴリー: cs.CV | DepthSplat: Connecting Gaussian Splatting and Depth はコメントを受け付けていません

UniDrive: Towards Universal Driving Perception Across Camera Configurations

要約 ビジョン中心の自動運転は、経済的なセンサーを使用して優れたパフォーマンスを … 続きを読む

カテゴリー: cs.CV | UniDrive: Towards Universal Driving Perception Across Camera Configurations はコメントを受け付けていません

Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

要約 ビジョンにおける自己回帰モデルをスケールアップすることは、大規模な言語モデ … 続きを読む

カテゴリー: cs.CV, cs.LG | Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens はコメントを受け付けていません

Automatic Mapping of Anatomical Landmarks from Free-Text Using Large Language Models: Insights from Llama-2

要約 解剖学的ランドマークは、ナビゲーションや異常検出のための医療画像処理におい … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Automatic Mapping of Anatomical Landmarks from Free-Text Using Large Language Models: Insights from Llama-2 はコメントを受け付けていません

Vision-Based Adaptive Robotics for Autonomous Surface Crack Repair

要約 インフラの表面亀裂は、効率的に修復しないと大幅な劣化や高額なメンテナンスに … 続きを読む

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | Vision-Based Adaptive Robotics for Autonomous Surface Crack Repair はコメントを受け付けていません