月別アーカイブ: 2024年8月

Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction

要約 強化学習における困難な探索問題に直面して、私たちはエージェントにオブジェク … 続きを読む

カテゴリー: cs.AI, cs.LG | Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction はコメントを受け付けていません

FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance

要約 CLIP は、画像とテキストのペアのデータで構成される大規模なデータセット … 続きを読む

カテゴリー: cs.CV | FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance はコメントを受け付けていません

Hierarchical Salient Patch Identification for Interpretable Fundus Disease Localization

要約 医用画像解析におけるディープラーニング技術の応用の広がりに伴い、モデル予測 … 続きを読む

カテゴリー: cs.CV | Hierarchical Salient Patch Identification for Interpretable Fundus Disease Localization はコメントを受け付けていません

A New Chinese Landscape Paintings Generation Model based on Stable Diffusion using DreamBooth

要約 この研究では主に、中国の山水画を生成するための安定拡散モデル (SDM) … 続きを読む

カテゴリー: cs.CV | A New Chinese Landscape Paintings Generation Model based on Stable Diffusion using DreamBooth はコメントを受け付けていません

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

要約 ビジュアルストーリーテリングでは、文字とシーンの一貫性を維持しながら、テキ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context はコメントを受け付けていません

Video-to-Text Pedestrian Monitoring (VTPM): Leveraging Computer Vision and Large Language Models for Privacy-Preserve Pedestrian Activity Monitoring at Intersections

要約 コンピューター ビジョンは高度な研究方法論を備えており、さまざまな分野にわ … 続きを読む

カテゴリー: cs.AI, cs.CV | Video-to-Text Pedestrian Monitoring (VTPM): Leveraging Computer Vision and Large Language Models for Privacy-Preserve Pedestrian Activity Monitoring at Intersections はコメントを受け付けていません

Unfolded proximal neural networks for robust image Gaussian denoising

要約 逆イメージング問題を解決する一般的なアプローチは、最小化問題を解くことによ … 続きを読む

カテゴリー: cs.CV, math.OC | Unfolded proximal neural networks for robust image Gaussian denoising はコメントを受け付けていません

MIS-ME: A Multi-modal Framework for Soil Moisture Estimation

要約 土壌水分の推定は、灌漑、施肥、収穫の最適な計画を作成する際の精密な農業を可 … 続きを読む

カテゴリー: cs.CV, cs.LG | MIS-ME: A Multi-modal Framework for Soil Moisture Estimation はコメントを受け付けていません

MotionBooth: Motion-Aware Customized Text-to-Video Generation

要約 この作品では、オブジェクトとカメラの動きの両方を正確に制御して、カスタマイ … 続きを読む

カテゴリー: cs.CV | MotionBooth: Motion-Aware Customized Text-to-Video Generation はコメントを受け付けていません

Exploring Robustness of Visual State Space model against Backdoor Attacks

要約 Visual State Space Model (VSS) は、さまざま … 続きを読む

カテゴリー: cs.CV | Exploring Robustness of Visual State Space model against Backdoor Attacks はコメントを受け付けていません