「cs.CV」カテゴリーアーカイブ

Can Robots ‘Taste’ Grapes? Estimating SSC with Simple RGB Sensors

投稿日: 2024年12月31日作成者: jarxiv

要約生食用ブドウ栽培では、収穫は果実の品質を正確に評価することにかかっています … 続きを読む →

カテゴリー: cs.CV, cs.RO, I.2.10 | コメントを受け付けていません

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

投稿日: 2024年12月31日作成者: jarxiv

要約拡散モデルは、テキストから画像への生成において並外れた才能を発揮しますが、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Generalize Your Face Forgery Detectors: An Insertable Adaptation Module Is All You Need

投稿日: 2024年12月31日作成者: jarxiv

要約顔ディープフェイクのリスクに対処するために、顔偽造検出器が多数存在します。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Frequency-aware Event Cloud Network

投稿日: 2024年12月31日作成者: jarxiv

要約イベントカメラは、生物学にヒントを得たセンサーであり、驚異的な時間分解能 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Two Heads Are Better Than One: Averaging along Fine-Tuning to Improve Targeted Transferability

投稿日: 2024年12月31日作成者: jarxiv

要約最適化にかかる時間は非標的型攻撃よりもはるかに長いにもかかわらず、標的型攻 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT

投稿日: 2024年12月31日作成者: jarxiv

要約自然言語処理における GPT シリーズなどの自己回帰 (AR) 生成モデル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Length-Aware DETR for Robust Moment Retrieval

投稿日: 2024年12月31日作成者: jarxiv

要約ビデオモーメント検索 (MR) は、特定の自然言語クエリに基づいてビデオ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization

投稿日: 2024年12月31日作成者: jarxiv

要約テキストから画像への生成モデルは、テキストから画像を作成することに優れてい … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Fine-Tuning TransMorph with Gradient Correlation for Anatomical Alignment

投稿日: 2024年12月31日作成者: jarxiv

要約教師なしディープラーニングは、解剖学的に正確な変換を達成しながら、解剖学的 … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames

投稿日: 2024年12月31日作成者: jarxiv

要約現実世界の長いビデオを理解するには、広範囲にわたる視覚的な依存関係のモデリ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Can Robots ‘Taste’ Grapes? Estimating SSC with Simple RGB Sensors

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Generalize Your Face Forgery Detectors: An Insertable Adaptation Module Is All You Need

Frequency-aware Event Cloud Network

Two Heads Are Better Than One: Averaging along Fine-Tuning to Improve Targeted Transferability

DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT

Length-Aware DETR for Robust Moment Retrieval

TextMatch: Enhancing Image-Text Consistency Through Multimodal Optimization

Fine-Tuning TransMorph with Gradient Correlation for Anatomical Alignment

A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames

最近の投稿

最近のコメント

アーカイブ

カテゴリー