投稿者「jarxiv」のアーカイブ

SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer

要約 このペーパーでは、リップリーディング用の効率的な視覚音声エンコーダーを紹介 … 続きを読む

カテゴリー: cs.CV, eess.AS | SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer はコメントを受け付けていません

Deep residual learning with product units

要約 製品ユニットを残留ブロックに統合して、深い畳み込みネットワークの表現力とパ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Deep residual learning with product units はコメントを受け付けていません

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

要約 近年、マルチモーダル理解モデルと画像生成モデルの両方で顕著な進歩が見られて … 続きを読む

カテゴリー: cs.CV | Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities はコメントを受け付けていません

MFSeg: Efficient Multi-frame 3D Semantic Segmentation

要約 効率的なマルチフレーム3Dセマンティックセグメンテーションフレームワークで … 続きを読む

カテゴリー: cs.CV | MFSeg: Efficient Multi-frame 3D Semantic Segmentation はコメントを受け付けていません

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

要約 高密度の視覚的予測タスクは、事前定義されたカテゴリへの依存によって制約され … 続きを読む

カテゴリー: cs.CV | DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception はコメントを受け付けていません

RLMiniStyler: Light-weight RL Style Agent for Arbitrary Sequential Neural Style Generation

要約 任意のスタイル転送は、特定の芸術的画像のスタイルを別のコンテンツ画像に適用 … 続きを読む

カテゴリー: cs.CV | RLMiniStyler: Light-weight RL Style Agent for Arbitrary Sequential Neural Style Generation はコメントを受け付けていません

Illumination and Shadows in Head Rotation: experiments with Denoising Diffusion Models

要約 頭の回転中の照明と影の影響を正確にモデル化することは、画像のリアリズムを強 … 続きを読む

カテゴリー: cs.CV, I.2.10 | Illumination and Shadows in Head Rotation: experiments with Denoising Diffusion Models はコメントを受け付けていません

Deep Learning for Sea Surface Temperature Reconstruction under Cloud Occlusion

要約 雲のギャップの影響を受けた衛星画像からの海面温度(SST)の再構築は、過去 … 続きを読む

カテゴリー: cs.CV, I.4.5 | Deep Learning for Sea Surface Temperature Reconstruction under Cloud Occlusion はコメントを受け付けていません

Sharpness-Aware Minimization with Z-Score Gradient Filtering for Neural Networks

要約 Sharpness-Aware Minimization(SAM)は、パラ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IT, cs.LG, cs.NE, math.IT | Sharpness-Aware Minimization with Z-Score Gradient Filtering for Neural Networks はコメントを受け付けていません

XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models

要約 BardやGPT-4などの大規模なビジョン言語モデルの最新のブレークスルー … 続きを読む

カテゴリー: cs.CV | XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models はコメントを受け付けていません