月別アーカイブ: 2023年7月

WavJourney: Compositional Audio Creation with Large Language Models

要約 大規模言語モデル (LLM) は、複雑な言語と視覚のタスクに取り組むために … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | WavJourney: Compositional Audio Creation with Large Language Models はコメントを受け付けていません

Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models

要約 ビジョン言語事前トレーニング (VLP) モデルは、マルチモーダル タスク … 続きを読む

カテゴリー: cs.CV | Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models はコメントを受け付けていません

TD-GEM: Text-Driven Garment Editing Mapper

要約 言語ベースのファッション画像編集により、ユーザーは提供されたテキスト プロ … 続きを読む

カテゴリー: cs.CV | TD-GEM: Text-Driven Garment Editing Mapper はコメントを受け付けていません

ECO: Ensembling Context Optimization for Vision-Language Models

要約 最近、画像認識ではパラダイム シフトが見られ、視覚言語モデルがテキスト プ … 続きを読む

カテゴリー: cs.CV | ECO: Ensembling Context Optimization for Vision-Language Models はコメントを受け付けていません

Pre-Training with Diffusion models for Dental Radiography segmentation

要約 医療用 X 線写真のセグメンテーション、特に歯科用 X 線写真のセグメンテ … 続きを読む

カテゴリー: cs.CV, cs.LG | Pre-Training with Diffusion models for Dental Radiography segmentation はコメントを受け付けていません

DNN-Compressed Domain Visual Recognition with Feature Adaptation

要約 学習ベースの画像圧縮は、最先端の変換ベースのコーデックと同等のパフォーマン … 続きを読む

カテゴリー: cs.CV, eess.IV | DNN-Compressed Domain Visual Recognition with Feature Adaptation はコメントを受け付けていません

PNT-Edge: Towards Robust Edge Detection with Noisy Labels by Learning Pixel-level Noise Transitions

要約 ピクセルレベルのラベルを含む大規模なトレーニング データに依存するこれまで … 続きを読む

カテゴリー: cs.CV | PNT-Edge: Towards Robust Edge Detection with Noisy Labels by Learning Pixel-level Noise Transitions はコメントを受け付けていません

Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo Matching

要約 相関ベースのステレオマッチングにより、2つの特徴マップ間のコストボリューム … 続きを読む

カテゴリー: cs.CV | Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo Matching はコメントを受け付けていません

VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by Using Diffusion Model with ControlNet

要約 最近、StableDiffusion のような拡散モデルは、印象的な画像生 … 続きを読む

カテゴリー: cs.CV | VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by Using Diffusion Model with ControlNet はコメントを受け付けていません

Neglected Free Lunch — Learning Image Classifiers Using Annotation Byproducts

要約 画像分類器の教師あり学習は、画像と対応するラベル (X、Y) のペアを通じ … 続きを読む

カテゴリー: cs.CV, cs.LG | Neglected Free Lunch — Learning Image Classifiers Using Annotation Byproducts はコメントを受け付けていません