月別アーカイブ: 2023年6月

TextDiffuser: Diffusion Models as Text Painters

要約 拡散モデルは、その優れた生成能力によりますます注目を集めていますが、現在、 … 続きを読む

カテゴリー: cs.CV | TextDiffuser: Diffusion Models as Text Painters はコメントを受け付けていません

E2E-LOAD: End-to-End Long-form Online Action Detection

要約 最近、オンライン アクション検出 (OAD) に対して機能ベースのアプロー … 続きを読む

カテゴリー: cs.CV | E2E-LOAD: End-to-End Long-form Online Action Detection はコメントを受け付けていません

Robustness of SAM: Segment Anything Under Corruptions and Beyond

要約 セグメント何でもモデル (SAM) は、その名前が示すように、あらゆるオブ … 続きを読む

カテゴリー: cs.CV | Robustness of SAM: Segment Anything Under Corruptions and Beyond はコメントを受け付けていません

Dynamically Masked Discriminator for Generative Adversarial Networks

要約 敵対的生成ネットワーク (GAN) のトレーニングは依然として困難な問題で … 続きを読む

カテゴリー: cs.CV | Dynamically Masked Discriminator for Generative Adversarial Networks はコメントを受け付けていません

Effects of Data Enrichment with Image Transformations on the Performance of Deep Networks

要約 画像が常に特定の標準形式と方向で提供されるとは限りません。 ディープネット … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Effects of Data Enrichment with Image Transformations on the Performance of Deep Networks はコメントを受け付けていません

Automatic and Accurate Classification of Hotel Bathrooms from Images with Deep Learning

要約 ホテルのバスルームは顧客満足度の点で最も重要な場所の 1 つであり、最も多 … 続きを読む

カテゴリー: cs.CV, cs.LG | Automatic and Accurate Classification of Hotel Bathrooms from Images with Deep Learning はコメントを受け付けていません

BeliefPPG: Uncertainty-aware Heart Rate Estimation from PPG signals via Belief Propagation

要約 光電脈波信号 (PPG) から抽出されたいくつかの心拍数推定ベンチマークで … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.SP, I.5 | BeliefPPG: Uncertainty-aware Heart Rate Estimation from PPG signals via Belief Propagation はコメントを受け付けていません

V-LoL: A Diagnostic Dataset for Visual Logical Learning

要約 ビジュアル AI の最近の開発は成功を収めていますが、さまざまな欠点が依然 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | V-LoL: A Diagnostic Dataset for Visual Logical Learning はコメントを受け付けていません

Generative Watermarking Against Unauthorized Subject-Driven Image Synthesis

要約 大規模なテキストから画像へのモデルは、高品質の画像の合成において顕著なパフ … 続きを読む

カテゴリー: cs.CR, cs.CV | Generative Watermarking Against Unauthorized Subject-Driven Image Synthesis はコメントを受け付けていません

MultiModal-GPT: A Vision and Language Model for Dialogue with Humans

要約 私たちは、人間との複数ラウンドの対話を行うための MultiModal-G … 続きを読む

カテゴリー: cs.CL, cs.CV | MultiModal-GPT: A Vision and Language Model for Dialogue with Humans はコメントを受け付けていません