「cs.CV」カテゴリーアーカイブ

DGNN-YOLO: Interpretable Dynamic Graph Neural Networks with YOLO11 for Small Object Detection and Tracking in Traffic Surveillance

投稿日: 2024年12月30日作成者: jarxiv

要約歩行者、自転車、バイクなどの小さな物体の正確な検出と追跡は、交通監視システ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation

投稿日: 2024年12月30日作成者: jarxiv

要約近年、医療画像のセグメンテーションは大幅に進歩していますが、さまざまなセン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Language-Guided Diffusion Model for Visual Grounding

投稿日: 2024年12月30日作成者: jarxiv

要約ビジュアルグラウンディング (VG) タスクには、提供された言語フレーズ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Keypoint Aware Masked Image Modelling

投稿日: 2024年12月30日作成者: jarxiv

要約 SimMIM は、マスクされた画像モデリングを使用してビジョントランスフ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Generative Video Propagation

投稿日: 2024年12月30日作成者: jarxiv

要約大規模なビデオ生成モデルには、自然のシーンをリアルにモデル化する固有の機能 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Improved image display by identifying the RGB family color space

投稿日: 2024年12月30日作成者: jarxiv

要約画像を表示するには、画像がエンコードされている色空間が既知であると想定され … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MVTamperBench: Evaluating Robustness of Vision-Language Models

投稿日: 2024年12月30日作成者: jarxiv

要約視覚言語モデル (VLM) の最近の進歩により、複雑なビデオ理解タスクが大 … 続きを読む →

カテゴリー: 68Q32, 68Q85, 68T05, 68T37, 68T40, 68T45, 94A08, cs.CV, I.2.10 | コメントを受け付けていません

RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction

投稿日: 2024年12月30日作成者: jarxiv

要約拡散確率モデル (DPM) は、高忠実度画像合成の事実上のアプローチとして … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding

投稿日: 2024年12月30日作成者: jarxiv

要約 3D シーングラフはコンパクトなシーンモデルを表し、オブジェクトとオブ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

投稿日: 2024年12月30日作成者: jarxiv

要約コンピュータービジョン (CV) は、大規模なトランスフォーマーモデル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

DGNN-YOLO: Interpretable Dynamic Graph Neural Networks with YOLO11 for Small Object Detection and Tracking in Traffic Surveillance

Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation

Language-Guided Diffusion Model for Visual Grounding

Keypoint Aware Masked Image Modelling

Generative Video Propagation

Improved image display by identifying the RGB family color space

MVTamperBench: Evaluating Robustness of Vision-Language Models

RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction

3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding

Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

最近の投稿

最近のコメント

アーカイブ

カテゴリー