cs.CV」カテゴリーアーカイブ

DGNN-YOLO: Interpretable Dynamic Graph Neural Networks with YOLO11 for Small Object Detection and Tracking in Traffic Surveillance

要約 歩行者、自転車、バイクなどの小さな物体の正確な検出と追跡は、交通監視システ … 続きを読む

カテゴリー: cs.CV, cs.LG | DGNN-YOLO: Interpretable Dynamic Graph Neural Networks with YOLO11 for Small Object Detection and Tracking in Traffic Surveillance はコメントを受け付けていません

Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation

要約 近年、医療画像のセグメンテーションは大幅に進歩していますが、さまざまなセン … 続きを読む

カテゴリー: cs.CV | Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation はコメントを受け付けていません

Language-Guided Diffusion Model for Visual Grounding

要約 ビジュアル グラウンディング (VG) タスクには、提供された言語フレーズ … 続きを読む

カテゴリー: cs.CV, cs.MM | Language-Guided Diffusion Model for Visual Grounding はコメントを受け付けていません

Keypoint Aware Masked Image Modelling

要約 SimMIM は、マスクされた画像モデリングを使用してビジョン トランスフ … 続きを読む

カテゴリー: cs.CV, cs.LG | Keypoint Aware Masked Image Modelling はコメントを受け付けていません

Generative Video Propagation

要約 大規模なビデオ生成モデルには、自然のシーンをリアルにモデル化する固有の機能 … 続きを読む

カテゴリー: cs.CV | Generative Video Propagation はコメントを受け付けていません

Improved image display by identifying the RGB family color space

要約 画像を表示するには、画像がエンコードされている色空間が既知であると想定され … 続きを読む

カテゴリー: cs.CV | Improved image display by identifying the RGB family color space はコメントを受け付けていません

MVTamperBench: Evaluating Robustness of Vision-Language Models

要約 視覚言語モデル (VLM) の最近の進歩により、複雑なビデオ理解タスクが大 … 続きを読む

カテゴリー: 68Q32, 68Q85, 68T05, 68T37, 68T40, 68T45, 94A08, cs.CV, I.2.10 | MVTamperBench: Evaluating Robustness of Vision-Language Models はコメントを受け付けていません

RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction

要約 拡散確率モデル (DPM) は、高忠実度画像合成の事実上のアプローチとして … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction はコメントを受け付けていません

3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding

要約 3D シーン グラフはコンパクトなシーン モデルを表し、オブジェクトとオブ … 続きを読む

カテゴリー: cs.CV | 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding はコメントを受け付けていません

Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

要約 コンピューター ビジョン (CV) は、大規模なトランスフォーマー モデル … 続きを読む

カテゴリー: cs.CV | Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization はコメントを受け付けていません