月別アーカイブ: 2023年5月

POEM: Polarization of Embeddings for Domain-Invariant Representations

投稿日: 2023年5月23日作成者: jarxiv

要約配布外のサンプルの処理は、ディープビジュアルモデルにとって長期にわたる … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

投稿日: 2023年5月23日作成者: jarxiv

要約近年、画像生成のパフォーマンスは大幅に向上しており、拡散モデルが中心的な役 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Learning Pedestrian Actions to Ensure Safe Autonomous Driving

投稿日: 2023年5月23日作成者: jarxiv

要約車両と歩行者の相互作用が複雑な都市環境で安全な自動運転を確保するには、自動 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Parallelizing Optical Flow Estimation on an Ultra-Low Power RISC-V Cluster for Nano-UAV Navigation

投稿日: 2023年5月23日作成者: jarxiv

要約オプティカルフロー推定は、無人航空機 (UAV) の自律ナビゲーションと … 続きを読む →

カテゴリー: cs.CV, cs.RO, eess.IV | コメントを受け付けていません

Navya3DSeg — Navya 3D Semantic Segmentation Dataset & split generation for autonomous vehicles

投稿日: 2023年5月23日作成者: jarxiv

要約現在、自動運転 (AD) の認識は、大規模なアノテーション付きデータセット … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

ControlVideo: Training-free Controllable Text-to-Video Generation

投稿日: 2023年5月23日作成者: jarxiv

要約テキスト駆動の拡散モデルは、画像生成において前例のない能力を解放しましたが … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Restore Anything Pipeline: Segment Anything Meets Image Restoration

投稿日: 2023年5月23日作成者: jarxiv

要約最近の画像復元手法は、深層学習を使用して大幅な進歩を遂げています。しかし … 続きを読む →

カテゴリー: 94A08, cs.AI, cs.CV, cs.LG, eess.IV, I.2 | コメントを受け付けていません

Open-world Semi-supervised Novel Class Discovery

投稿日: 2023年5月23日作成者: jarxiv

要約従来の半教師あり学習タスクは、ラベル付きデータとラベルなしデータの両方が同 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

GSURE-Based Diffusion Model Training with Corrupted Data

投稿日: 2023年5月23日作成者: jarxiv

要約拡散モデルは、データ生成と、逆問題、テキストベースの編集、分類などの下流タ … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending

投稿日: 2023年5月23日作成者: jarxiv

要約 CLIP などの大規模な画像とテキストの対照的な事前トレーニングモデルは … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2023年5月

POEM: Polarization of Embeddings for Domain-Invariant Representations

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

Learning Pedestrian Actions to Ensure Safe Autonomous Driving

Parallelizing Optical Flow Estimation on an Ultra-Low Power RISC-V Cluster for Nano-UAV Navigation

Navya3DSeg — Navya 3D Semantic Segmentation Dataset & split generation for autonomous vehicles

ControlVideo: Training-free Controllable Text-to-Video Generation

Restore Anything Pipeline: Segment Anything Meets Image Restoration

Open-world Semi-supervised Novel Class Discovery

GSURE-Based Diffusion Model Training with Corrupted Data

VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending

最近の投稿

最近のコメント

アーカイブ

カテゴリー