「cs.CV」カテゴリーアーカイブ

ESP-MedSAM: Efficient Self-Prompting SAM for Universal Image Segmentation

投稿日: 2024年8月8日作成者: jarxiv

要約 Segment Anything Model (SAM) は、医療画像のセ … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Lightweight Video Denoising Using a Classic Bayesian Backbone

投稿日: 2024年8月8日作成者: jarxiv

要約近年、最先端の画像およびビデオのノイズ除去ネットワークはますます大規模化し … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV, eess.SP | コメントを受け付けていません

AdapMTL: Adaptive Pruning Framework for Multitask Learning Model

投稿日: 2024年8月8日作成者: jarxiv

要約マルチメディアおよびマルチモーダル処理の領域では、画像、ビデオ、センサー … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

FMiFood: Multi-modal Contrastive Learning for Food Image Classification

投稿日: 2024年8月8日作成者: jarxiv

要約食品画像の分類は、画像ベースの食事評価の基本的なステップであり、食事の機会 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FourierMamba: Fourier Learning Integration with State Space Models for Image Deraining

投稿日: 2024年8月8日作成者: jarxiv

要約画像ディレインは、雨の画像から雨の縞模様を除去し、鮮明な背景を復元すること … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Fast Sprite Decomposition from Animated Graphics

投稿日: 2024年8月8日作成者: jarxiv

要約このペーパーでは、アニメーショングラフィックを基本要素またはレイヤーのセ … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Advancing Prompt Learning through an External Layer

投稿日: 2024年8月8日作成者: jarxiv

要約プロンプト学習は、一連のテキスト埋め込みを学習することで、事前トレーニング … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

How Well Can Vision Language Models See Image Details?

投稿日: 2024年8月8日作成者: jarxiv

要約大規模言語モデルベースの視覚言語モデル (LLM ベースの VLM) は、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving

投稿日: 2024年8月7日作成者: jarxiv

要約本稿では、音声表現に基づいてビデオシーケンス内の特定のオブジェクトを動的に … 続きを読む →

カテゴリー: cs.CV, cs.RO, eess.AS, eess.IV | コメントを受け付けていません

Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach

投稿日: 2024年8月7日作成者: jarxiv

要約新たに配備された各ロボットに周囲の独自のマップを作成させるのではなく、SL … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

ESP-MedSAM: Efficient Self-Prompting SAM for Universal Image Segmentation

Lightweight Video Denoising Using a Classic Bayesian Backbone

AdapMTL: Adaptive Pruning Framework for Multitask Learning Model

FMiFood: Multi-modal Contrastive Learning for Food Image Classification

FourierMamba: Fourier Learning Integration with State Space Models for Image Deraining

Fast Sprite Decomposition from Animated Graphics

Advancing Prompt Learning through an External Layer

How Well Can Vision Language Models See Image Details?

EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving

Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach

最近の投稿

最近のコメント

アーカイブ

カテゴリー