cs.CV」カテゴリーアーカイブ

On the Viability of Semi-Supervised Segmentation Methods for Statistical Shape Modeling

要約 統計形状モデル(SSM)は、形態ベースの診断や外科​​的計画を含むさまざま … 続きを読む

カテゴリー: cs.CV | On the Viability of Semi-Supervised Segmentation Methods for Statistical Shape Modeling はコメントを受け付けていません

Vision language models are blind: Failing to translate detailed visual features into words

要約 視覚能力(VLM)を備えた大規模な言語モデル、たとえばGPT-4OやGem … 続きを読む

カテゴリー: cs.AI, cs.CV | Vision language models are blind: Failing to translate detailed visual features into words はコメントを受け付けていません

OmniBench: Towards The Future of Universal Omni-Language Models

要約 マルチモーダル大手言語モデル(MLLMS)の最近の進歩は、複数のモダリティ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | OmniBench: Towards The Future of Universal Omni-Language Models はコメントを受け付けていません

InteractionMap: Improving Online Vectorized HDMap Construction with Interaction

要約 ベクトル化された高解像度(HD)マップは、自律運転システムに不可欠です。 … 続きを読む

カテゴリー: cs.CV | InteractionMap: Improving Online Vectorized HDMap Construction with Interaction はコメントを受け付けていません

Cognitive Science-Inspired Evaluation of Core Capabilities for Object Understanding in AI

要約 私たちの世界モデルのコアコンポーネントの1つは、「直感的な物理学」です。オ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Cognitive Science-Inspired Evaluation of Core Capabilities for Object Understanding in AI はコメントを受け付けていません

Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation

要約 最近、大規模なテキストからイメージ(T2I)拡散モデルが画像間翻訳(I2I … 続きを読む

カテゴリー: cs.CV | Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation はコメントを受け付けていません

StableMamba: Distillation-free Scaling of Large SSMs for Images and Videos

要約 S4で例示された状態空間モデル(SSM)は、状態空間技術を深い学習に統合す … 続きを読む

カテゴリー: cs.CV | StableMamba: Distillation-free Scaling of Large SSMs for Images and Videos はコメントを受け付けていません

CMED: A Child Micro-Expression Dataset

要約 微小発現は、隠すのが難しい短い感情のバーストです。 子どもたちの検出は、心 … 続きを読む

カテゴリー: cs.CV | CMED: A Child Micro-Expression Dataset はコメントを受け付けていません

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

要約 マルチビューイメージングとポーズ推定の統合は、コンピュータービジョンアプリ … 続きを読む

カテゴリー: cs.CV | RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond はコメントを受け付けていません

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

要約 わずか数秒でテキストプロンプトから高品質の3Dメッシュを生成できるモデルを … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data はコメントを受け付けていません