月別アーカイブ: 2024年8月

Low-Quality Image Detection by Hierarchical VAE

投稿日: 2024年8月21日作成者: jarxiv

要約従業員名簿、フォトアルバム、または生成モデルのトレーニングデータセット … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video

投稿日: 2024年8月21日作成者: jarxiv

要約現在のビデオ要約手法は、教師ありコンピュータービジョン技術に大きく依存し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ViLReF: A Chinese Vision-Language Retinal Foundation Model

投稿日: 2024年8月21日作成者: jarxiv

要約網膜画像データとテキストデータの意味上の微妙な違いは、視覚言語モデルの事 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Using Unreliable Pseudo-Labels for Label-Efficient Semantic Segmentation

投稿日: 2024年8月21日作成者: jarxiv

要約ラベル効率の良いセマンティックセグメンテーションの核心は、大量のラベルの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MagicID: Flexible ID Fidelity Generation System

投稿日: 2024年8月21日作成者: jarxiv

要約ポートレート忠実度生成は、制御性と忠実度の両方を強化することに主に焦点を当 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Grey-box Attack against Latent Diffusion Model-based Image Editing by Posterior Collapse

投稿日: 2024年8月21日作成者: jarxiv

要約生成 AI、特に潜在拡散モデル (LDM) の最近の進歩は、画像の合成と操 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining

投稿日: 2024年8月21日作成者: jarxiv

要約 3D ガウススプラッティング (3DGS) は、多くの視覚タスクにおける … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Vision-Language Dataset Distillation

投稿日: 2024年8月21日作成者: jarxiv

要約データセット蒸留手法は、大規模なデータセットをより小さな合成データのセット … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CrossFi: A Cross Domain Wi-Fi Sensing Framework Based on Siamese Network

投稿日: 2024年8月21日作成者: jarxiv

要約近年、Wi-Fi センシングは、プライバシー保護、低コスト、浸透能力などの … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, eess.SP | コメントを受け付けていません

SDI-Net: Toward Sufficient Dual-View Interaction for Low-light Stereo Image Enhancement

投稿日: 2024年8月21日作成者: jarxiv

要約現在、ほとんどの低照度画像強調方法は単一ビューからの情報のみを考慮しており … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

月別アーカイブ: 2024年8月

Low-Quality Image Detection by Hierarchical VAE

Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video

ViLReF: A Chinese Vision-Language Retinal Foundation Model

Using Unreliable Pseudo-Labels for Label-Efficient Semantic Segmentation

MagicID: Flexible ID Fidelity Generation System

A Grey-box Attack against Latent Diffusion Model-based Image Editing by Posterior Collapse

ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining

Vision-Language Dataset Distillation

CrossFi: A Cross Domain Wi-Fi Sensing Framework Based on Siamese Network

SDI-Net: Toward Sufficient Dual-View Interaction for Low-light Stereo Image Enhancement

最近の投稿

最近のコメント

アーカイブ

カテゴリー